注意事项 如果使用HDFS作为文件存储,则需要在StarRocks实例中配置用于连接至HDFS集群和Hive Metastore服务的用户名。如果不特意设定该用户名,则默认使用Frontend(FE)和 Backend(BE)进程的用户名进行访问(默认用户名为starrocks)。...
Hive Hive warehouse支持默认使用OSS-HDFS存储。OSS-HDFS 新增服务。YARN 支持默认使用OSS-HDFS存储。HBase HBase HFile数据支持默认使用OSS-HDFS存储。HBase WAL日志支持使用OSS-HDFS存储。EMR-5.12.0 服务 变更点 Kyuubi 升级到1.7.1版本...
Hive Hive warehouse支持默认使用OSS-HDFS存储。OSS-HDFS 新增服务。YARN 支持默认使用OSS-HDFS存储。HBase HBase HFile数据支持默认使用OSS-HDFS存储。HBase WAL日志支持使用OSS-HDFS存储。EMR-3.46.0 服务 变更点 Kyuubi 升级到1.7.1版本...
本文主要为您介绍基于表格存储的海量气象格点数据解决方案的背景及挑战。背景 气象数据是一类典型的大数据,具有数据量大、时效性高、数据种类丰富等特点。气象数据中大量的数据是时空数据,记录了时间和空间范围内各个点的各个物理量的...
表格存储支持通过使用VPC实现网络隔离,可有效提升资源间互访时的安全性。表格存储默认允许任意网络的访问,同时支持为实例配置Network ACL来限制访问实例的网络类型,保证网络访问安全。更多信息,请参见 Network ACL 和 网络安全管理。...
本文介绍了表格存储结合实时计算Flink实现大数据分析的样例场景、架构设计等。背景信息 云数据库RDS MySQL基于阿里巴巴的MySQL源码分支,经过双十一高并发、大数据量的考验,拥有优良的性能。RDS MySQL支持实例管理、账号管理、数据库管理...
表格存储 默认允许任意网络的访问,您可以通过为实例绑定 VPC 并更改网络访问类型实现在 专有网络 VPC 中使用 表格存储 资源,保证网络访问安全。实例网络类型 表格存储 默认会为每个实例创建一个公网域名、一个 VPC 域名以及一个经典网...
表格存储 支持实现不同实例网络类型组合,满足不同的网络安全性需求。实例网络类型 说明 允许任意网络访问 实例对访问来源不做限制。可以通过公网域名、经典网域名、VPC 域名或者控制台来访问实例。限定控制台或 VPC 访问 实例只允许来源于...
无需在EMR集群上部署Hive Metastore,即元数据查询服务以及存储服务都托管到DLF产品上,免去运维成本,同时支持更多引擎(例如MaxCompute、Flink、DataBricks或Hologres等),进一步实现湖仓一体共享元数据,在多个集群上也能够实现元数据...
本文为您介绍如何将Hive MetaStore存储在MySQL、RDS中的元数据迁移到DLF中,并介绍如何在EMR集群中配置使用DLF作为数据湖统一元数据。适用场景 从其他大数据集群迁移到阿里云E-MapReduce产品。从阿里云EMR老集群(MySQL做元数据),整体...
阿里云Cloudera CDP默认支持集群中组件HDFS NameNode、YARN ResourceManager以及Hive Metastore Server的高可用,此外对于Hive、Hue等组件用于存储元数据的元数据库MariaDB也做了主从备份,能最大限度保证服务的可用性和数据的可恢复性。...
通过JindoFuse充分支持POSIX,可以在ClickHouse这类OLAP场景中替换本地磁盘来实现存储与计算分离方案。同时,得益于缓存系统进行加速,达到较优性价比。HBase存储与计算分离 OSS-HDFS服务原生支持文件、目录语义和操作,并支持flush操作,...
索引加速 文件分析 云数据库 SelectDB 版支持表函数功能(Table-Value-Function或TVF),可以将S3、HDFS等常见远端存储中的文件数据,映射成云数据库 SelectDB 版中的表,从而对这些文件数据进行分析 文件分析 数据湖分析 Hive数据源 通过...
本文主要介绍如何将Hive Metasstore存储在MySQL/RDS中的元数据迁移到DLF中,并介绍如何在EMR集群中配置使用DLF作为数据湖统一元数据。适用场景 从其他大数据集群迁移到阿里云E-MapReduce产品时,元数据迁移可以参考该文档。从阿里云EMR老...
切换元数据存储类型 您可以通过修改Hive参数的方式,切换Hive MetaStore的存储方式。说明 如果需要迁移数据库的元数据信息,请参见 EMR元数据迁移公告。进入Hive服务页面。登录EMR on ECS控制台。在顶部菜单栏处,根据实际情况选择地域 和...
该场景通过Hive的分布式能⼒,实现Hive数据向MaxCompute的⾼并发传输。前提条件。Hive集群各节点已能够访问MaxCompute。数据迁移过程。MMA通过Hive MetaStore获取元数据,即获取所有表名、表的Schema和分区信息。MMA在MaxCompute端根据获取...
云原生数据仓库AnalyticDB MySQL版 湖仓版(3.0)支持通过Hive数据迁移将Hive数据迁移至OSS。本文介绍如何添加Hive数据源,新建Hive迁移链路并启动任务,以及数据迁移后如何进行数据分析和管理数据迁移任务。功能介绍 AnalyticDB MySQL版 ...
背景信息 Hive是基于Hadoop的一个数据仓库工具,用来进行数据的提取、转化、加载,可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成...
背景信息 Hive是基于Hadoop的一个数据仓库工具,用来进行数据的提取、转化、加载,可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成...
离线整库迁移可用于将本地数据中心或在ECS上自建的数据库同步数据至大数据计算服务,包括MaxCompute、Hive、TDH Inceptor等数据源。本文为您介绍如何新建并配置整库迁移任务。前提条件 已完成所需迁移的数据源创建。整库迁移支持MySQL、...
表格存储支持通过MaxCompute、Spark、Hive或者HadoopMR、函数计算、Flink、Presto、表格存储多元索引以及表格存储SQL查询进行计算与分析。分析工具选择 表格存储支持 宽表模型、时序模型 等多种数据模型。使用不同数据模型时支持的分析工具...
本文以车联网场景中车辆元数据为例介绍基于设备接入平台与表格存储Tablestore搭建车辆元数据管理平台的场景需求以及方案架构。场景需求 车辆在行驶的过程中会定时上报大量的状态数据,例如车辆识别代码、行驶速度、发动机转速、车内温度等...
您可以借助Apache Iceberg快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Flink、Spark、Hive、Presto等计算引擎来实现数据湖的分析。类别 详情 支持类型 源表和结果表 运行模式 批模式和流模式 数据格式 暂不...
在混合云场景下,阿里云推出了一系列存储和灾备解决...混合云存储阵列:部署在客户数据中心的存储阵列,实现本地存储与云存储空间扩展以及数据云端灾备和协同。云存储网关:以OSS作为后端存储,前端支持行业标准的文件和块存储协议的软网关。
消息检索的实现依赖于对消息存储库内消息的索引,通常是一个近实时(NRT,near real time)的索引构建过程,这个索引同样是在线的。以上是传统架构和现代架构的一个简单的对比。现代架构上整个消息的同步、存储和索引流程,并没有变复杂太...
NAS可随着您文件的添加和删除自动进行扩容或缩容,实现存储的按需分配,而不影响您的应用服务。数据持久性和服务可用性 NAS的数据在后端进行多副本存储,每份数据都有多份拷贝在故障域隔离的不同设备上存放,提供99.999999999%(11个9)的...
说明 您也可以通过MaxCompute、Spark、Hive或者HadoopMR、函数计算、Flink等计算引擎分析 表格存储 中的数据。更多信息,请参见 计算与分析概述。基于多元索引可以实现 搭建亿量级店铺搜索系统 等方案。更多方案介绍,请参见 多元索引实践...
本文将从以下方面为您介绍如何管理Hive Catalog:配置Hive元数据 创建Hive Catalog 使用Hive Catalog 查看Hive Catalog 删除Hive Catalog 前提条件 在使用Hive MetaStore或阿里云DLF作为Hive Catalog元数据中心前,需要完成以下配置:使用...
表格存储(Tablestore)面向海量结构化数据提供Serverless表存储服务,同时针对物联网场景深度优化提供一站式的IoTstore解决方案。适用于海量账单、IM消息、物联网、车联网、风控、推荐等场景中的结构化数据存储,提供海量数据低成本存储、...
应用场景 利用数据湖投递可以实现如下场景需求:冷热数据分层 数据湖投递结合 表格存储 的 数据生命周期 功能,可以快速实现OSS低成本存储全量数据,表格存储 提供热数据的低延迟查询和分析的需求。全量数据备份 数据湖投递可以自动将 表格...
使用Hive搭建离线数仓时,随着数据量的不断增长,传统的基于HDFS存储的数仓可能无法以较低成本满足用户的需求。在这种情况下,您可以使用OSS-HDFS服务作为Hive数仓的底层存储,并通过JindoSDK获得更好的读写性能。前提条件 已创建ECS实例。...
文件存储NAS支持创建不同类型的NAS文件系统,不同类型的文件系统计费标准不同,本文介绍文件存储NAS的计费情况。付费方式 付费模式 说明 按量付费 默认付费方式。先使用,后付费,适用于业务用量经常有变化的场景。通用型NAS按照各计费项的...
投递的数据兼容开源生态标准,按照Parquet列存格式存储,兼容Hive命名规范。您可以使用E-MapReduce直接对投递到OSS的数据进行外表分析。计算生态对接 支持对接主流开源流批计算引擎,包括Flink、Spark、Presto等。与阿里大数据平台生态组件...
表格存储支持通过DataWorks数据集成实现的数据迁移场景包括将数据库数据迁移到表格存储、表格存储数据跨实例或者跨账号迁移同步和将表格存储数据迁移到OSS或者MaxCompute。将数据库数据迁移到表格存储 DataWorks提供各种异构数据源之间稳定...
本文介绍使用云存储网关过程中的常见问题。云上部署FAQ 创建网关时找不到可用交换机如何处理?云存储网关升级失败了该如何处理?本地部署FAQ 如何检测网关网络的联通性?如何在本地数据中心部署云存储网关?云存储网关升级失败了该如何处理...
不少用户在使用表格存储的过程中偶尔会接到一些500错误,主要错误码如下。HTTPStatus ErrorCode ErrorMsg 503 OTSPartitionUnavailable The partition is not available.503 OTSServerUnavailable Server is not available.503 ...
本文主要为您介绍如何使用Hive或者HadoopMR访问表格存储中的表。数据准备 在表格存储中准备一张数据表pet,name是唯一的一列主键,数据示例请参见下表。说明 表中空白部分无需写入,因为表格存储是schema-free的存储结构,没有值也无需写入...
表格存储的时序模型是针对时间序列数据的特点进行设计,适用于物联网设备监控、设备采集数据、机器监控数据等场景,支持自动构建时序元数据索引、丰富的时序查询能力等功能。时序模型通过时序表存储时间序列数据,能提供高并发写入和查询...
您可以通过OSS SDK接入多种开源生态。...Apache Impala(CDH6)查询OSS数据 通过配置CDH6环境下的Hadoop、Hive、Spark、Impala等组件,以实现对接OSS进行数据查询操作。通过HDP 2.6 Hadoop读取和写入OSS数据 通过配置HDP 2.6实现读写OSS数据。
EMR-2.4.0之前版本,所有集群采用的是集群本地的MySQL数据库作为Hive元数据库;EMR-2.4.0及后续版本,E-MapReduce(简称EMR)支持统一的高可靠的Hive元数据库。背景信息 因为元数据库需要使用公网IP来连接,所以集群必须要有公网IP,同时请...