DLF统一元数据

切换元数据存储类型 您可以通过修改Hive参数的方式,切换Hive MetaStore的存储方式。说明 如果需要迁移数据库的元数据信息,请参见 EMR元数据迁移公告。进入Hive服务页面。登录EMR on ECS控制台。在顶部菜单栏处,根据实际情况选择地域 和...

通过整库迁移配置集成任务

离线整库迁移可用于将本地数据中心或在ECS上自建的数据库同步数据至大数据计算服务,包括MaxCompute、Hive、TDH Inceptor等数据源。本文为您介绍如何新建并配置整库迁移任务。前提条件 已完成所需迁移的数据源创建。整库迁移支持MySQL、...

2024-04-01版本

OceanBase(公测中)Hive Catalog支持OSS-HDFS作为Hive写入端的存储 方便您集成OSS-HDFS构建Hive数仓。管理Hive Catalog 基于DLF的Hive Catalog支持创建非Hive表 您可以统一使用Hive Catalog管理不同的类型的表。Paimon支持能力提升 支持将...

Hadoop生态外表联邦分析

云原生数据仓库AnalyticDB PostgreSQL版 支持通过外表访问Hadoop生态的外部数据源(包括HDFS与Hive)。注意事项 本特性只支持存储弹性模式实例,且需要 AnalyticDB PostgreSQL版 实例和目标访问的外部数据源处于同一个VPC网络。2020年9月6...

Hive元数据说明

该元数据类型相比自建RDS和内置MySQL两种方式的最大区别是,无需在EMR集群上部署Hive Metastore,即元数据查询服务以及存储服务都托管到DLF产品上,免去运维成本,同时支持更多引擎(例如MaxCompute、Flink、DataBricks或Hologres等),...

管理Hive Catalog

本文将从以下方面为您介绍如何管理Hive Catalog:配置Hive元数据 创建Hive Catalog 使用Hive Catalog 查看Hive Catalog 删除Hive Catalog 前提条件 在使用Hive MetaStore或阿里云DLF作为Hive Catalog元数据中心前,需要完成以下配置:使用...

SQL查询计量计费

使用SQL查询过程中,可能消耗读吞吐量的操作如下:数据表:数据扫描与查询 二级索引:数据扫描与查询 多元索引:数据查询与计算 时序表:数据扫描与查询 计费示例 假设表格存储中有一个订单表sample_table,主键为user_id(String类型),...

方案背景

多元索引基于倒排索引、存储、空间索引等,可解决大数据的复杂查询、分析聚合等需求。通过为数据表创建多元索引,可实现全文检索、前缀查询、模糊查询、组合查询、统计聚合等功能。样例场景 某大型连锁超市会实时产生大量的消费数据,...

Paimon数据源

Hive Metastore:元数据存储Hive Metastore中,您可以直接从Hive访问这些表。基于FileSystem创建Catalog 重要 SelectDB 2.X及之前版本,请参见 基于Hive Metastore创建Catalog。此处以HDFS为例:CREATE CATALOG `paimon_hdfs` PROPERTIES...

什么是表格存储

表格存储(Tablestore)面向海量结构化数据提供Serverless表存储服务,同时针对物联网场景深度优化提供一站式的IoTstore解决方案。适用于海量账单、IM消息、物联网、车联网、风控、推荐等场景中的结构化数据存储,提供海量数据低成本存储、...

阿里云DLF数据源

本文介绍 云数据库 SelectDB 版 与阿里云DLF数据源进行对接使用的流程,帮助您对阿里云DLF数据源进行联邦分析。概述 阿里云Data Lake Formation...类型映射 连接DLF后SelectDB进行的类型映射和Hive Catalog一致,详情请参见 Hive数据源。

创建投递任务

Format:投递的数据的存储以Parquet存格式存储,数据湖投递默认使用PLAIN编码方式,PLAIN编码方式支持任意类型数据。EventTimeColumn:事件时间,用于指定按某一数据的时间进行分区。如果不设置此参数,则按数据写入表格存储的时间...

创建投递任务

format:投递的数据的存储以Parquet存格式存储,数据湖投递默认使用PLAIN编码方式,PLAIN编码方式支持任意类型数据。eventTimeColumn:事件时间,用于指定按某一数据的时间进行分区。如果不设置此参数,则按数据写入表格存储的时间...

配置CDH6使用文件存储 HDFS 版

数据迁移完成后,您还需要配置CDH上的HDFS服务、YARN服务、Hive服务、Spark服务、HBase服务,才能使用 文件存储 HDFS 版。配置Cloudera Management服务 执行以下命令,将最新的 文件存储 HDFS 版 Java SDK复制到Cloudera Management服务的...

如何优化高并发IM系统架构

介绍如何使用表格存储的主键增功能优化高并发IM系统架构。背景 在构建社交IM和朋友圈应用时,最基本的需求是将用户发送的消息和朋友圈的更新及时、准确地更新给该用户的好友。这需要为用户发送的每一条消息或者朋友圈更新设置一个序号...

配置E-MapReduce服务使用文件存储 HDFS 版

本文介绍如何配置E-MapReduce上的HDFS服务、HIVE服务、SPARK服务、HBase服务来使用 文件存储 HDFS 版。前提条件 已完成数据迁移。具体操作,请参见 E-MapReduce数据迁移。配置HDFS服务 登录 阿里云E-MapReduce控制台。在 集群管理 页面,...

Doris概述

存储引擎方面,Doris采用存储,按进行数据的编码压缩和读取,能够实现极高的压缩比,同时减少大量非相关数据的扫描,从而更加有效利用IO和CPU资源。Doris也支持比较丰富的索引结构,来减少数据的扫描:Sorted Compound Key Index:...

Iceberg数据源

Hive Catalog一致,请参见 Hive数据源的类型映射。Time Travel 在Iceberg中,每次对表的写操作都会产生一个新的快照(Snapshot)。默认情况下,SelectDB的读请求只会读取Iceberg最新版本的快照,您可以使用 FOR time AS OF 和 FOR ...

配置Hive输入组件

Hive输入组件用于读取Hive数据源的数据。同步Hive数据源的数据至其他数据源的场景中,您需要先配置Hive输入组件读取的数据源,再配置数据同步的目标数据源。本文为您介绍如何配置Hive输入组件。使用限制 Hive输入组件支持数据格式为 orc、...

常见问题

以下场景为例,说明使用版本控制时的存储费用(假定当月有30天):当月第1天:通过PutObject操作向某一存储空间(Bucket)上传了20 GB大小的Object,存储类型为标准存储(本地冗余)。当月第16天:通过PutObject操作对同一个Bucket中的同...

使用SDK

format:投递的数据的存储以Parquet存格式存储。默认值为Parquet。数据湖投递默认使用PLAIN编码方式,PLAIN编码方式支持任意类型数据。目前仅支持Parquet,一般无需配置,保持默认即可。eventTimeColumn:事件时间,用于指定按某一...

文件存储 HDFS 版和数据库MySQL双向数据迁移

本文介绍如何使用Sqoop工具实现 文件存储 HDFS 版 和关系型数据库MySQL之间的双向数据迁移。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已搭建Hadoop集群。建议您使用的...

CreateTable

Name":"col1","Type":"string"}],"InputFormat":"org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat","Location":"oss:/data/warehouse/tblname","OutputFormat":"org.apache.hadoop.hive.ql.io.parquet....

DataWorks on EMR集群配置最佳实践

其中,EMR Hive节点支持表及血缘,Spark类型节点仅支持表血缘。针对Spark组件,仅Spark 2.x版本支持血缘功能,Spark 3.x版本不支持。更多Spark组件的配置详情,请参见 Spark Memory Management。HDFS 您可根据所使用的EMR集群规模情况...

Hudi连接器

Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力,以及消费变化数据的能力。EMR Trino已经将相关JAR包集成至独立的Hudi Plugin里面,EMR Hudi连接器目前支持查询COW和MOR表。背景信息 EMR Hudi的详细信息...

环境准备

使用Hive/HadoopMR来访问表格存储中的表前,您需要完成JDK、Hadoop环境、Hive环境、表格存储Java SDK和阿里云EMR SDK的安装。使用Hive/HadoopMR来访问表格存储中的表 通过 表格存储 及 E-MapReduce 官方团队发布的依赖包,可以直接使用Hive...

Hive访问Iceberg数据

Hive支持通过内表或外表的方式访问Iceberg数据。本文通过示例为您介绍如何使用EMR上的Hive访问EMR Iceberg数据。前提条件 已创建Hadoop集群,详情请参见 创建集群。说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop...

使用E-Mapreduce访问

[hadoop@emr-worker-2~]$hive Logging initialized using configuration in file:/etc/ecm/hive-conf-2.3.5-1.2.0/hive-log4j2.properties Async:true Hive-on-MR is deprecated in Hive 2 and may not be available in the future ...

通过控制台投递数据到OSS

通过表格存储控制台创建投递任务,将表格存储数据表中的数据投递到OSS Bucket中存储。前提条件 已开通OSS服务且在表格存储实例所在地域创建Bucket,详情请参见 开通OSS服务。说明 数据湖投递支持投递到和表格存储相同地域的任意OSS Bucket...

表格存储建表注意事项

表格存储支持半结构化的表,即建表时只需要指定主键(1至4),不需要在创建表的时候指定属性。表格存储表中包含的属性个数无限制,且每一行数据可以拥有不同数量不同类型的属性。在应用程序写入数据时,表格存储需要应用程序指定...

管理元数据

由于计算引擎类型包括Hive和MaxCompute,因此存储类型包括Hive和MaxCompute。单租户模式下只能选择和计算引擎一致的类型;单实例多租户模式下只能选择和元数据仓库一致的类型。数据对象 元数据表中所要描述的主题对象,包括 物理表、逻辑表...

管理元数据

由于计算引擎类型包括Hive和MaxCompute,因此存储类型包括Hive和MaxCompute。单租户模式下只能选择和计算引擎一致的类型;单实例多租户模式下只能选择和元数据仓库一致的类型。数据对象 元数据表中所要描述的主题对象,包括 物理表、逻辑表...

二级索引计量计费

如果此次更新涉及到的所有属性中存在部分作为索引表的主键或者属性,产生的读CU如下:该行旧值中除主键外所有与索引表主键相关的大小之和,按4 KB向上取整。如果为0,则按1 CU计算。通过DELETE操作删除一行数据 产生的读CU如下:...

方案背景

本文以车联网场景中车辆轨迹数据为例介绍基于设备接入平台与表格存储Tablestore搭建车辆轨迹数据平台的场景需求以及方案架构。场景需求 在车联网场景中,车辆通过传感器上报时序数据到云端。通过存储、查询和分析这些时序数据,用户可以...

测试模型

属性名 类型 长度 field0 string 100 field1 string 100 field2 string 100 field3 string 100 field4 string 100 分区数量 表格存储的自动负载均衡机制能够根据表下各个分区的数据量、访问压力对数据分区进行动态的分裂,该过程不需要...

监控审计

日志转存 访问对象存储OSS的过程中会产生大量的访问日志,您可以通过日志转存功能将这些日志按照固定命名规则,以小时为单位生成日志文件写入您指定的Bucket。对于已存储的日志,您可以通过阿里云日志服务或搭建Spark集群等方式进行分析。...

通用型NAS计费

费用组成如下图所示:说明 下表出中国内地NAS资源包、中国内地SCU抵扣NAS各存储类型存储容量时的抵扣系数。NAS资源包其他地域抵扣系数,请使用 计算器 查看相关信息。SCU其他地域和其他云产品的抵扣系数,请参见 产品定价。计费项 计费...

表设计

主键设计——数据散 为什么需要数据散 数据散是分布式数据系统中的通常要考虑的问题,散的目的是让数据分布更均匀,避免热点。假设数据分布不均匀,会出现以下问题:数据写入和读取能力受限于单个分区的能力,或者是单机能力,存在...

新建Paimon数据源

版本 选择Paimon数据源的来源版本,支持 EMR3.x Hive 2.3.5、EMR5.x Hive 3.1.x、CDH6.x Hive 2.1.1、CDP7.x Hive 3.1.3、亚信DP5.x Hive 3.1.0。数据源描述 对数据源的简单描述。不得超过128个字符。数据源配置 选择需要配置的数据源:...

通过控制台使用分析存储

如果使用过程中遇到问题,请通过钉钉加入用户群 物联网存储 IoTstore 开发者交流群 联系我们。步骤一:创建时序模型实例 创建时序模型实例时,表格存储会自动为实例开启分析存储功能。登录 表格存储控制台。在页面上方,选择资源组和地域。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
对象存储 文件存储 CPFS 云存储网关 商标服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用