功能特性

索引加速 文件分析 云数据库 SelectDB 版支持表函数功能(Table-Value-Function或TVF),可以将S3、HDFS等常见远端存储中的文件数据,映射成云数据库 SelectDB 版中的表,从而对这些文件数据进行分析 文件分析 数据湖分析 Hive数据源 通过...

配置E-MapReduce服务使用文件存储 HDFS 版

Hive的元数据存储在MySQL,进入存储Hive元数据的MySQL数据库hivemeta,修改CTLGS表、DBS表和SDS表相应的值。执行 use hivemeta 命令,进入存储Hive元数据的MySQL数据库hivemeta。修改表CTLGS中的数据。执行 select*from CTLGS 命令,查询表...

Hive调研工具准备

系统 安装包 Linux(X86)/Windows(X86)云迁移中心->资源调研->离线采集->获取工具 解压命令:tar zxvf hive-scanner-x.x.tar.gz 运行目录准备 您需要准备一个空目录作为工具运行目录,如下:|-hive-scanner/|-application.yml|-hms-data-...

常见问题

本文汇总了Hive使用时的常见问题。说明 对于Hive作业报错或其他异常问题请参见 Hive作业异常排查及处理。对于Hive Metastore和HiveServer等服务相关的异常请参见 Hive服务异常排查及处理。作业长时间处于等待状态,如何处理?Map端是否读取...

OSS与文件系统的对比

对象存储 OSS 文件系统 Object 文件 Bucket 主目录 Region 无 Endpoint 无 AccessKey 无 无 多级目录 GetService 获取主目录列表 GetBucket 获取文件列表 PutObject 写文件 AppendObject 追加写文件 GetObject 读文件 DeleteObject 删除...

Delta Lake数据源

dlf.catalog.id 否 DLF数据目录ID。仅当 hive.metastore.type 配置为 dlf 时需要填写该参数。如果未配置 dlf.catalog.id 参数的值,则系统将使用默认的DLF Catalog。示例 以下示例创建了一个名为 delta_catalog 的Delta Lake Catalog。...

Hive作业异常排查及处理

cp hdfs:/emr-header-1.xxx/old/path oss:/bucket/new/path hive-e"create table new_tbl like old_tbl location 'oss:/bucket/new/path'"Hive UDF和第三方包 Hive lib目录下放置三方包导致冲突 原因分析:在Hive lib目录($HIVE_HOME/lib...

高级配置

mount_point 表示要挂载OSS存储空间的本地目录,将 mount_point 替换为您所需的目录路径;url=url 表示OSS端点的URL,将 url 替换为您实际的OSS端点URL。0 0 是文件系统的选项。保存/etc/fstab 文件。执行 mount-a 命令,如果没有报错,则...

管理目录

即所有数据均以对象(Object)的形式保存存储空间(Bucket)中。为方便管理,OSS控制台将所有以正斜线(/)结尾的对象显示为目录,实现类似于目录的基本功能。您可以通过目录的层次来组织文件,实现分组并简化权限管理。注意事项 当您...

Hudi数据源

dlf.catalog.id 否 DLF数据目录ID。仅当 hive.metastore.type 配置为 dlf 时需要填写该参数。如果未配置 dlf.catalog.id 参数的值,则系统将使用默认的DLF Catalog。示例 以下示例创建了一个名为 hudi_catalog 的Hudi Catalog。CREATE ...

常见问题

您可以使用OSS的标准访问方法直接访问OSS,也可查询存储于OSS上的Hive表。EMR Trino支持OSS-HDFS。如何访问Trino UI?如何理解Trino UI?如果您的集群安装了Knox服务,可以使用Knox链接访问Trino UI,详情请参见 Knox。如果您的集群不包含...

常见问题

方式二:登录集群的emr-header-1节点,将/etc/ecm/impala-conf 目录下的 ranger-hive-audit.xml、ranger-hive-security.xml、ranger-policymgr-ssl.xml、ranger-security.xml 四个文件复制到新扩容节点的/etc/ecm/impala-conf 目录下。

通过PrestoDB使用Tablestore

预留模式:计费项包括计算能力、数据存储量和外网下行流量,其中数据存储量包括高性能存储、容量型存储和多元索引存储。使用计算引擎访问表格存储时会消耗计算资源。存储元数据的表占用的数据存储量与创建实例时的存储规格相关。按量模式:...

管理目录

即所有数据均以对象(Object)的形式保存存储空间(Bucket)中。为方便管理,OSS控制台将所有以正斜线(/)结尾的对象显示为目录,实现类似于目录的基本功能。您可以通过目录的层次来组织文件,实现分组并简化权限管理。注意事项 本文以...

文件存储 HDFS 版和对象存储OSS双向数据迁移

本文档介绍 文件存储 HDFS 版 和对象存储OSS之间的数据迁移操作过程。您可以将 文件存储 HDFS 版 数据迁移到对象存储OSS,也可以将对象存储OSS的数据迁移到 文件存储 HDFS 版。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和...

Sqoop概述

背景信息 常见数据传输场景如下:将MySQL数据导入HDFS 将HDFS数据导入MySQL 将Hive数据导入MySQL 将MySQL数据导入Hive 将MySQL数据导入OSS 将OSS数据导入MySQL 使用SQL作为导入条件 将MySQL数据导入HDFS 在Master节点上执行如下命令。...

EMR元数据迁移公告

阿里云EMR团队发现部分用户在EMR集群上,仍然使用本地MySQL和统一meta数据库(旧版功能)作为生产环境的Hive元数据存储。我们强烈建议您尽快迁移到数据湖构建DLF中,原因如下:本地MySQL是单机部署,无法保证服务高可用,容易造成服务中断...

Hive作业调优

Hive的文件基本上都是存储在HDFS上,而HDFS上的文件,都是分块的,所以具体的Hive数据文件在HDFS上多少块,可能对应的是默认Hive起始的Task的数量,使用 default_mapper_num 参数表示。使用数据总大小除以dfs默认的最大块大小来决定初始...

使用E-Mapreduce访问

Hive的元数据存储在MySQL中,进入存储Hive元数据的MySQL数据库hivemeta中,修改DBS表和SDS表,如下所示。MariaDB[(none)]>use hivemeta;修改表“DBS”MariaDB[hivemeta]>select*from DBS;DB_ID|DESC|DB_LOCATION_URI|NAME|OWNER_NAME|OWNER...

设置生命周期策略

您可以基于最后一次访问时间的规则创建生命周期策略,定期将通用型NAS文件系统内的多个文件或目录转储为指定的存储类型,从而节省存储费用。费用说明 低频存储类型费用说明 低频存储容量费用:根据您转储至低频存储中的文件大小、时长收取...

Dataphin提交至hive中的任务执行时间过长

具体情况如下:Dataphin日志显示2023-04-23 13:47:02.509 至 2023-04-23 13:51:34.297这432秒任务是在hive中执行;查看yarn日志,hive执行的时间只有28秒;还有44秒耗费在哪里呢?解决方案 hive队列资源设置的不合理,hive任务等待时间...

存储空间占用情况

OSS-HDFS服务使用OSS Bucket存储HDFS数据及其辅助数据,这些数据均存储于Bucket中的.dlsdata/路径下,并产生相应的OSS存储容量的计量和计费。OSS-HDFS文件数据块block OSS-HDFS文件的所有数据块block均占用OSS Bucket的存储空间。OSS-HDFS...

Hive元数据说明

该元数据类型相比自建RDS和内置MySQL两种方式的最大区别是,无需在EMR集群上部署Hive Metastore,即元数据查询服务以及存储服务都托管到DLF产品上,免去运维成本,同时支持更多引擎(例如MaxCompute、Flink、DataBricks或Hologres等),...

使用EasyRec读取Hive

EasyRec支持csv和Parquet两种Hive文件存储格式。本文通过示例为您介绍,如何基于Hive在Data Science集群进行EasyRec模型训练、评估和预测。前提条件 已创建Hadoop集群,详情请参见 创建集群。已创建DataScience集群,且选择了EasyRec和...

Catalog概述

当FE将生成的查询计划分发给各个BE后,各个BE会并行扫描Hive存储系统中的目标数据,并执行计算返回查询结果。查询数据 查询内部数据 如果需要查询存储在StarRocks中的数据,请参见 Default Catalog。查询外部数据 如果需要查询存储在外部...

CreateTable

Location String 是 oss:/data/warehouse/tblname 表数据存储目录。OutputFormat String 是 org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat 表的OutputFormat信息。Parameters Map 否 SD属性。String 否 key001=value...

Catalog概述

当FE将生成的查询计划分发给各个BE后,各个BE会并行扫描Hive存储系统中的目标数据,并执行计算返回查询结果。查询数据 查询内部数据 如果需要查询存储在StarRocks中的数据,请参见 内表数据源。查询外部数据 如果需要查询存储在外部数据源...

开通并配置OSS存储分析

EMR Doctor借助您Bucket中最新的清单文件,分析该Bucket的数据使用,健康状态以及与Hive存储分析关联。使用EMR Doctor OSS存储分析需要您为Bucket预先开通存储清单功能。清单功能的详细介绍,具体请参见 存储空间清单。注意事项 开通OSS...

配置CDH6使用文件存储 HDFS 版

命令,进入存储Hive元数据的MySQL数据库。修改表DBS中的数据。执行 SELECT*FROM DBS LIMIT 5;命令,查询表DBS中的数据。返回结果示例如下:+-+-+-+-+-+-+-+|DB_ID|DESC|DB_LOCATION_URI|NAME|OWNER_NAME|OWNER_TYPE|CREATE_TIME|+-+-+-+-+-...

Paimon数据源

注意事项 当数据位于HDFS时,需要将 core-site.xml、hdfs-site.xml 与 hive-site.xml 放到FE和BE的conf目录下。SelectDB会优先读取conf目录下的Hadoop配置文件,再读取环境变量 HADOOP_CONF_DIR 的相关配置文件。当前适配的Paimon版本为0.5...

mkdir(创建目录

当您希望按实际业务场景对上传至存储空间(Bucket)下的文件(Object)进行合理归类时,您需要先创建目录,然后将目标文件存放至指定目录。本文介绍如何使用 mkdir 命令创建目录。注意事项 要创建目录,您必须具有 oss:GetObject 和 oss:...

DataFlow集群通过Hive Catalog连接数据湖元数据DLF

操作流程 步骤一:数据准备 步骤二:DataFlow集群连接DLF读取Hive全量数据 步骤一:数据准备 下载Hive作业需要的 测试数据 至OSS任意空目录,数据上传目录将作为后续的外表地址使用。本示例中上传目录为 oss:/<yourBucketName>/hive/...

创建Hive数据源

通过创建Hive数据源能够实现Dataphin读取Hive的业务数据或向Hive写入数据。本文为您介绍如何创建Hive数据源。背景信息 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。Hive用于转化...

SmartData 3.5.x版本简介

SmartData组件是EMR Jindo引擎的存储部分,为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文介绍SmartData(3.5.x)版本的更新内容。JindoFS OSS扩展和支持 ...

管理SMB共享

目录可以为OSS Bucket中已存在的目录也可以为OSS Bucket中还未创建的目录,创建共享完成后,将以该子目录为根目录,后续的文件和目录都会创建该目录下。使用元数据盘 使用元数据盘后,将数据盘与元数据盘分离,元数据盘用于存放共享文件...

WordPress如何存储远程附件到OSS

示例中填写wp表示所有附件都会存储在Bucket的wp目录下。远程基本URL 须与 FTP远程路径 对应。HTTP远程路径 填半角句号(.)即可。单击 保存。单击 保存 的同时会测试配置,测试结果会在页面上方显示。发布新文章验证配置是否成功。撰写新...

通过SLS完成日志数据入湖OSS

数据湖支持在低存储成本的情况下,更好地满足数据长期存储、查询、分析、读取等需求。本文介绍通过日志服务SLS完成日志数据入湖的操作方式。前提条件 已在日志服务Project所在的地域创建Bucket。具体操作,请参见 控制台创建存储空间。背景...

Paimon数据源

paimon.catalog.type 是 Paimon使用的元数据类型,取值为:hive:使用Hive MetaStore存储的元数据。filesystem:使用filesystem存储的元数据。dlf:使用DLF存储的元数据。paimon.catalog.warehouse 是 warehouse所在路径,支持HDFS、OSS和...

管理NFS共享

目录可以为OSS Bucket中已存在的目录也可以为OSS Bucket中还未创建的目录,创建共享完成后,将以该子目录为根目录,后续的文件和目录都会创建该目录下。使用元数据盘 使用元数据盘后,将数据盘与元数据盘分离,元数据盘用于存放共享文件...

E-MapReduce数据迁移方案

需要修改hive.properties:connector.name=hive-hadoop2 hive.metastore.uri=thrift:/E-MapReduce-header-1.cluster-500148414:9083 hive.config.resources=etc/ecm/hadoop-conf/core-site.xml,/etc/ecm/hadoop-conf/hdfs-site.xml hive....
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
文件存储 CPFS 对象存储 云存储网关 混合云存储 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用