Hudi

完善的数据连通性 对接多个阿里云大数据计算分析引擎,数据与计算引擎解耦,可以在Flink、Spark、Presto或Hive间无缝流转。深度打磨DB入湖场景 与Flink CDC连接器联动,降低开发门槛。提供企业级特性 包括集成DLF统一元数据视图、自动且轻...

Dataphin集成任务写出到Hive的覆盖策略

概述 本文主要描述了Dataphin集成任务写出到Hive的覆盖策略。详细信息 Hive做为输出组件,Hive是以文件的形式存储在HDFS上的,覆盖策略是按照表名前缀,先清表操作然后再覆盖数据。适用于 Dataphin v3.5.2

CDP集群高安全Kerberos+Ranger使用

kinit fayson Password for fayson@BDPHTSEC.COM: 再次访问Hive可以成功连接 创建Hive数据 0:jdbc:hive2:/cdp-master-1.c-977b427fe38547>show tables;0:jdbc:hive2:/cdp-master-1.c-977b427fe38547>create table t1(s1 string,s2 string)...

数据源常见问题

通过Hive数据源可以连接到Impala吗?在MySQL数据库中显示为0或1的字段,为什么在数据集中显示为True或False?直连数据库时,每次刷新仪表板的图表都去查询数据库吗?是否支持数据缓存?是否支持跨数据源关联表?数据源上传文件方式更新数据...

常见问题

高级版试用版为什么不能连接Hive数据源?高级版是否支持报表使用分析功能?高级版如何上传本地文件?高级版是否支持翻牌器、排行榜和桑基图?专业版问题 专业版是否支持无限制导出数据?Quick BI产品定位 请参见 什么是Quick BI。控制台上...

概述

行为 和 输入输出 是所有算子都有的属性,描述了算子可以做什么及相应的接口。对于不可解释算子(如图像识别),仅需定义行为和输入输出即可;对于可解释算子(如算术运算、条件判断等),则需要定义 表达式 以及表达式之间的 关系。数据...

SmartData常见问题

可以使用JindoFS缓存模式,通过预加载将OSS数据提前写入内存或者SSD缓存,然后训练引擎可以通过JindoFuse支持直接读取。基于MaxCompute数仓上的数据,JindoFS如何帮助机器学习训练?有如下两种方式:MaxCompute数仓作业将数据通过...

数据目录

什么是数据目录(Catalog)数据目录(Catalog)是数据湖构建(Data Lake Formation)的元数据最上层实体,它可以包含多个数据库。适用场景 主要适用于元数据隔离的场景,比如多个E-MapReduce集群,每个集群绑定不同的Catalog,每个EMR集群...

常见问题

如果您有配置多Hive MetaStore、多MySQL的需求,或默认提供的连接器不包含您想要使用的服务时,您可以使用EMR Trino提供的5个占位连接器,即connector1~connector5,您可以选择其中任意一个,将其 connector.name 配置为hive或您所需要的...

EMR元数据迁移到数据湖构建(DLF)

本文为您介绍如何将Hive MetaStore存储在MySQL、RDS中的元数据迁移到DLF中,并介绍如何在EMR集群中配置使用DLF作为数据湖统一元数据。适用场景 从其他大数据集群迁移到阿里云E-MapReduce产品。从阿里云EMR老集群(MySQL元数据),整体...

EMR元数据迁移DLF最佳实践

如果是RDS数据库,也可以在RDS控制台上查看和修改访问权限 开始迁移 DLF提供了可视化的元数据迁移产品功能,可以快速的将Hive Metastore元数据迁移到DLF元数据中。创建迁移任务 进入数据湖构建控制台,切换到EMR集群所属的区域,选择左侧...

DLF+EMR之统一权限最佳实践

业务场景说明 某公司有一个EMR集群,期望Hive/Spark/Presto/Impala引擎可以通过统一的数据权限,控制实际业务中不同用户使用数据的权限,主要分为以下几种情况:超级管理员 拥有数据湖上数据的所有权限,以及分配权限给其他人员的能力。...

常见问题

什么Hive创建的外部表没有数据?作业长时间处于等待状态,如何处理?您可以通过以下步骤定位问题:在EMR控制台的 访问链接与端口 页面,单击YARN UI所在行的链接。单击Application ID。单击 Tracking URL 的链接。可以看到有多个作业处于...

常见问题(FAQ)

说明 详情请参考Databricks官网文章:常见问题 什么是 Delta Lake?Delta Lake是一个开源存储层,可为数据湖带来可靠性。Delta Lake提供ACID事务,可伸缩的元数据处理,并统一流处理和批数据处理。Delta Lake在您现有的数据湖之上运行,并且...

Presto FAQ

原因:您的RDS实例过数据迁移,页面显示的实例ID不是真实的ID。解决方案:您可以添加一个属性 USE_VPC_CLOUD_INSTANCE_ID='true'。示例代码如下。CREATE SCHEMA `test_db` WITH DBPROPERTIES(CATALOG='mysql',LOCATION='jdbc:mysql:/rm-...

常见问题

什么Hive导入后其数据行数跟ClickHouse对不上?为什么Kafka导入后其数据行数跟ClickHouse对不上?如何使用Spark、Flink导入数据?如何从现有ClickHouse导入数据到云数据库ClickHouse?使用MaterializeMySQL引擎同步MySQL数据时,为什么...

文档修订记录

本文为您介绍DataWorks文档更新的最新动态,基于此您可以及时了解DataWorks的新增特性及功能变更。2024年2月更新记录 时间 特性 类别 描述 产品文档 2024.2.22 新增功能 账单订阅及查询分析 用户中心支持订阅不同类型的账单数据,例如,...

公告

此能力可以解决如下场景:RD账号为项目Owner但无法访问MaxCompute进行授权,导致项目需要 super_administrator 角色权限才能操作的参数无法配置。感谢您的配合!2023年09月27日-MaxCompute包年包月套餐、非预留计算资源、按量付费开发者版...

dsdemo代码介绍

model_dssm/DATE%EXP%_tmp_%WHEN%-user_model_dir/train/tf_model_dssm_user/DATE%EXP%_tmp_%WHEN%-item_model_dir/train/tf_model_dssm_item/DATE%EXP%_tmp_%WHEN%"#hivecli HIVE_REPOSITORY=ds_hivecli HIVE_VERSION=latest#HIVE_PUBLIC_...

SQL其他常见问题

FAILED:ODPS-0010000:System internal error-OTS filtering exception-Ots read range partitions exceeds the specified limit:10000:tableName:xxxx,please check hive conf key 产生原因 MaxCompute单张表支持6万个分区,但是单次查询...

常见问题

业务测试评估 硬件资源有什么要求?软件配置有什么要求?数据模型和表定义 生产环境下的副本数应该设置为多少?如何分区?如何分桶?如何设计排序键?如何合理的选择数据类型?数据导入常见问题 业务调优 购买常见问题 EMR StarRocks支持...

JindoFS介绍和使用

JindoFS纯客户端模式(SDK)JindoFS纯客户端模式为Hive和Spark等计算框架提供了访问阿里云OSS及其各种操作的优化,类似Hadoop社区的OSS FileSystem或S3A FileSystem。此模式不改变文件或对象在OSS上的组织方式,文件还是保存在OSS上,...

Paimon与Hive集成

其他服务通过Hive Catalog同步元数据到Hive MetaStore后,可以Hive中直接查询Hive Catalog中的表。如果创建集群时,元数据 选择为 DLF统一元数据,则其它服务也可以通过DLF Catalog同步元数据到DLF,并在Hive中查询。下面以Spark写入Hive...

Flink Table Store与Hive集成

通过Hive Catalog同步元数据到Hive MetaStore后,可以Hive中直接查询Hive Catalog中的表。如果创建集群时,元数据 选择为 DLF统一元数据,则其它服务也可以通过DLF Catalog同步元数据到DLF,并在Hive中查询。下面以Spark写入Hive Catalog...

Hive元数据说明

DLF Client SDK提供了兼容Hive Metastore的接口,这样引擎基本不任何改动就可以直接使用DLF Client SDK,进而访问DLF元数据。用户也可以直接使用DLF客户端访问DLF元数据。图 1.DLF统一元数据在单集群部署架构图 图 2.DLF统一元数据在多...

Hive访问EMR Phoenix数据

操作步骤 如果已经在Phoenix中创建了表 phoenix_hive_create_internal,想通过Hive访问,则可以使用Hive外表的方式与Phoenix中的表建立映射关系,进而通过Hive访问Phoenix中已经存在的表。执行以下命令,进入Hive命令行。hive 执行以下命令...

管理Hive Catalog

本文将从以下方面为您介绍如何管理Hive Catalog:配置Hive元数据 创建Hive Catalog 使用Hive Catalog 查看Hive Catalog 删除Hive Catalog 前提条件 在使用Hive MetaStore或阿里云DLF作为Hive Catalog元数据中心前,需要完成以下配置:使用...

Hive数据脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking),即可以对Select的返回结果脱敏,以屏蔽敏感信息。背景信息 该功能只针对HiveServer2的场景(例如,Beeline、JDBC和Hue等途径执行的Select语句)。操作步骤 说明 本文Ranger截图以2.1.0...

Hive访问EMR HBase数据

Hive通过内表访问HBase 如果HBase中没有已经创建好的表,则可以Hive中创建表,Hive会自动把表结构和数据写入到HBase中。本示例是在Hive中新建表访问HBase。执行以下命令,进入Hive命令行。hiveHive中创建并查询表数据。执行以下命令,...

Hive访问EMR HBase数据

Hive通过内表访问HBase 如果HBase中没有已经创建好的表,则可以Hive中创建表,Hive会自动把表结构和数据写入到HBase中。本示例是在Hive中新建表访问HBase。执行以下命令,进入Hive命令行。hiveHive中创建并查询表数据。执行以下命令,...

其他函数

MaxCompute SQL提供了开发过程中常见的其他函数,您可以根据实际需要选择合适的函数。本文为您提供MaxCompute SQL支持的CAST、DECODE、LEAST等函数的命令格式、参数说明及示例。函数 功能 BASE64 将二进制表示值转换为BASE64编码格式字符串...

Tez

背景信息 Tez主要使用在Apache Hive中,作为Hive的一种运行时引擎,可以优化Hive SQL的查询引擎。与Hive On MR(MapReduce)相比,Hive On Tez具有更好的查询性能和稳定性。Hive基于MapReduce提交任务和基于Tez提交任务流程图如下所示:Tez...

查看集群日报与分析

Hive使用量分析 在Hive使用分析中,您可以获取以下图表:Hive库存储量使用量分布图 Hive用户总存储量分布 Hive表文件大小分布比例 Hive表热冷数据分布 Hive表存储格式分布 Hive详细信息 在Hive信息中会展示Hive库和Hive表的详细信息。Hive...

DLF-Auth

步骤一:开启Hive权限控制 步骤二:添加RAM用户 步骤三:验证权限(可选)步骤四:开启Hive LDAP认证 如果开启了DLF-Auth权限,建议您开启Hive LDAP认证,以便于连接Hive的用户都可以通过LDAP认证后执行相关脚本。步骤一:开启Hive权限控制...

Hive访问Iceberg数据

可以Hive命令行中手动执行以下命令:非DataLake集群 add jar/usr/lib/hive-current/lib/libfb303-0.9.3.jar DataLake集群 add jar/opt/apps/HIVE/hive-current/lib/libfb303-0.9.3.jar 执行以下命令,查看表数据。SELECT*FROM iceberg_...

连接Kyuubi

使用Beeline连接Kyuubi 您可以Hive Beeline或者Kyuubi Beeline工具(EMR集群上的工具名称为 kyuubi-beeline)连接Kyuubi Server。以下示例使用Kyuubi Beeline工具连接Kyuubi。方式一:使用Zookeeper连接Kyuubi服务(推荐)kyuubi-beeline...

Hive使用JindoSDK处理OSS-HDFS服务中的数据

方式二:在配置文件中指定OSS-HDFS服务路径 您可以Hive Metastore的 hive-site.xml 配置文件中设置 hive.metastore.warehouse.dir 到OSS-HDFS服务路径,然后重启Hive Metastore,后续创建的数据库和数据库下的表均默认存储于OSS-HDFS服务...

Security Zone功能

Ranger 2.1.0版本开始支持配置Security Zone功能,可以将资源划分到不同的Security Zone中,给每个Security Zone分配不同的管理员进行权限管理,即可以将资源分类交由不同的管理员管理。本文介绍如何配置Security Zone。背景信息 例如,某...

Hive连接器

使用Hive连接器可以查询和分析存储在Hive数据仓库中的数据。背景信息 Hive数仓系统由以下三部分内容组成:不同格式的数据文件,通常存储在Hadoop分布式文件系统(HDFS)或对象存储系统(例如,阿里云OSS)中。存储着数据文件到Schema和...

Hive以EMR集群的方式处理OSS-HDFS服务中的数据

方式二:在配置文件中指定OSS-HDFS服务路径 您可以Hive Metastore的 hive-site.xml 配置文件中设置 hive.metastore.warehouse.dir 到OSS-HDFS服务路径,然后重启Hive Metastore,后续创建的数据库和数据库下的表均默认存储于OSS-HDFS服务...
共有32条 < 1 2 3 4 ... 32 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构 对象存储 物联网平台
新人特惠 爆款特惠 最新活动 免费试用