在数据库备份场景下,有4个概念:数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量 说明 数据库磁盘空间 由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为:购买时选择的存储...
本地上传 单击 方法一:本地上传 下方的空白区域,即可在本地PC中选择一个CSV数据文件,单击对话框右下方 上传 即可上传一个CSV数据文件。OSS上传 在 方法二:OSS上传 下方的输入框中,输入CSV数据文件的OSS链接地址,并单击对话框右下方 ...
本地上传 单击 方法一:本地上传 下方的空白区域,即可在本地PC中选择一个CSV数据文件,单击对话框右下方 上传 即可上传一个CSV数据文件。OSS上传 在 方法二:OSS上传 下方的输入框中,输入CSV数据文件的OSS链接地址,并单击对话框右下方 ...
类别 数据源 导入方式 文档链接 消息队列 Kafka 数据同步 通过数据同步功能同步Kafka至湖仓版(推荐)日志类数据 日志服务(SLS)数据同步 通过数据同步功能同步SLS至湖仓版(推荐)大数据 Hive 数据迁移 Hive数据导入 相关文档 AnalyticDB...
Hive使用量分析 在Hive使用分析中,您可以获取以下图表:Hive库存储量使用量分布图 Hive用户总存储量分布 Hive表文件大小分布比例 Hive表热冷数据分布 Hive表存储格式分布 Hive详细信息 在Hive信息中会展示Hive库和Hive表的详细信息。...
当中等大小的DeltaFile达到一定规模后,会进一步触发Level1~Level2的合并,生成更大的DeltaFile(图中橙色数据文件)。针对超过一定大小的数据文件,将进行专门的隔离处理,以避免触发进一步的合并,从而避免不必要的读写放大问题。例如:...
一般情况下,OSS外表存储的数据是冷数据,数据量比较大,当单个CSV格式的数据文件过大时,对其进行查询会非常耗时。因此 PolarDB 支持单表多文件查询功能,您可以将单个OSS外表的数据文件拆分为多个小的数据文件,以加快查询速度。本文介绍...
由于tempdb库总是使用简单恢复模式,因此tempdb库的日志文件通常很小,但是数据文件容易增长地很快,例如创建大量临时表、连接大表或排序等都可能导致tempdb库数据文件空间增加。解决方案 尽量从数据库应用层面规避,例如减少不必要的临时...
DataFrame可以从一系列广泛的源构建,例如:结构化数据文件、Hive中的表、外部数据库或现有RDD。DataFrame API有Scala、Java、Python和R版本。在Scala和Java中,DataFrame由行数据集表示。在Scala API中,DataFrame只是Dataset[Row]的类型...
以操作DLA的账号为例,该账号下每天会产生几千个数据文件,一个月的文件数将达到几十万个,大量的数据文件对大数据分析非常不便,分析数据耗时,且需要足够大的集群资源才能进行大数据分析。前提条件 使用ActionTrail日志清洗之前,您需要...
数据与日志比 以饼图形式展示用户RDS实例数据空间和日志空间对比,如果日志空间占比过高,可能需要在控制台收缩日志或者 打开30分钟日志备份功能。TOP 5 DB空间 以横向柱形图形式展示用户RDS实例空间使用率TOP 5的数据库空间详情,包括:总...
数据库自治服务DAS 为 RDS SQL Server 提供空间管理功能,可以分层监控与分析,从实例深入到数据库,再从数据库深入到表,帮助用户发现和定位数据库空间相关问题。空间管理提供您查看实例基本信息、空间总览、空间数据图表信息、空间变化...
文件类 说明 DataV目前不支持从其他文件存储中读取大型的数据文件。CSV文件 无。静态JSON 无。API类 添加API数据源 您可以在组件配置页面的 数据 面板中选择一种GET或POST任意一种请求方式,并将API地址直接粘贴到 URL 字段中。添加Open ...
W 文件引擎 负责目录文件数据的管理和服务,并提供宽表、时序、搜索引擎底层共享存储的服务化访问能力,从而加速多模引擎底层数据文件的导入导出及计算分析效率,兼容开源HDFS标准接口。更多信息,请参见 文件引擎介绍。物理I/O 由文件系统...
透明数据加密TDE 对数据文件执行实时I/O加密和解密,数据在写入磁盘之前进行加密,从磁盘读入内存时进行解密。TDE不会增加数据文件的大小,您无需更改任何应用程序,即可使用TDE功能,详情请参见 设置透明数据加密TDE。自动备份 支持 设置...
在安全合规或静态数据加密等场景下,推荐使用透明数据加密TDE(Transparent Data Encryption)功能,对数据文件执行实时I/O加密和解密,确保敏感数据在写入磁盘之前进行加密,从磁盘读入内存时进行解密,阻止可能的攻击者绕过数据库直接从...
导入方法对比 测试方法以 PolarDB-X 导入1000万行数据为例,源数据是上一个测试中导出的数据,数据量大概2 GB左右。方式 数据格式 耗时 性能(行/每秒)性能(MB/S)source语句(net-buffer-length=10KB)sql语句格式 10m24s 16025 3.2 ...
Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。数据集成支持从Hive同步数据到其他目标端,也支持从其他目标端同步数据到Hive。添加数据源 新建MaxCompute数据源 ...
Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。数据集成支持从Hive同步数据到其他目标端,也支持从其他目标端同步数据到Hive。添加数据源 新建MaxCompute数据源 ...
产品名称 Dataphin 产品模块 数据集成 概述 通过该问题的分析处理过程,提供以下场景问题处理排查思路和注意点:管道任务数据集成到hive之后,hive库查询集成数据为空 问题描述 将本地csv文件数据集成到hive库中,任务运行成功,但是查询...
问题描述 Dataphin中从SAP HANA...问题原因 从Hive中表结构可以看出,字段定义的是decimal(10,0)格式,因此同步到Hive数据只有整数。解决方案 修改Hive中对应字段格式,需要具有小数位数。适用于 适用产品:Dataphin 适用版本:独立部署3.9.1
数据文件空间 数据库所属数据文件在服务器上占用的磁盘空间。备份数据量 备份数据量指通过备份链路的实际数据大小。与数据文件空间不同,备份数据量取决于数据库类型、备份方式、备份粒度等因素。存储数据量 存储数据量指存放存储介质的...
SQL任务类型,用于连接数据库并执行...SQL任务节点设置中,数据源类型选择为 HIVE,数据源实例 选择已添加的HIVE数据源(与上述非查询类SQL任务示例中选择的数据源保持一致),SQL类型 选择为 查询,SQL语句 内容如下。select*from hive_table
Hive数据源为您提供读取和写入Hive双向通道的功能,本文为您介绍DataWorks的Hive数据同步的能力支持情况。背景信息 Hive是基于Hadoop的数据仓库工具,用于解决海量结构化日志的数据统计。Hive可以将结构化的数据文件映射为一张表,并提供...
数据迁移原理 Hive数据迁移原理 Hive数据迁移包含通过Hive UDTF迁移数据到MaxCompute、通过OSS迁移Hive数据到MaxCompute,本文为您介绍两种数据迁移方式的原理。通过Hive UDTF迁移数据到MaxCompute。该场景通过Hive的分布式能⼒,实现Hive...
支持 支持 Mogondb 支持(支持mongodb-cdc)-StarRocks 支持 支持-FusionInsight Flink支持的实时数据源 存储类型 数据源类型 读 写 维表读 大数据存储 Apache Hive 支持 支持 支持 Doris 支持 支持-Paimon 支持 支持-数据湖 Hudi 支持 ...
问题描述 Dataphin集成任务同步数据到Hive报错“GSS initiate failed”。问题原因 Hive数据源kerberos认证没有成功。解决方案 检查Hive数据源的连通性以及集群认证的相关票证是否正常。适用于 Dataphin
大数据分析(Hive/Spark 报表):减少报表生成时间,优化计算集群成本。湖仓一体:减少请求费用,优化数据目录(catalog)的响应延迟。AI:加速训练等场景,降低AI集群使用成本,提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...
前提条件 请确保您的网络连通性:您通过公网连接Quick BI与Hive数据库,请添加 Quick BI的IP地址 至数据库白名单,请参见 添加安全组规则。您通过内网连接Quick BI与Hive数据库,请搭建跳板机,并通过SSH隧道访问登录并访问数据库。已创建...
数据湖作为一个集中化的数据存储仓库,支持的数据类型具有多样性,包括结构化、半结构化以及非结构化的数据,数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...
调用GetDbfs查询数据库文件系统详细信息。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句...
调用ListDbfs查询您已经创建的数据库文件系统列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限...
Ranger支持对Hive数据按行进行过滤(Row Level Filter),即可以对Select返回的结果按行进行过滤,只显示满足指定条件的行。本文介绍如何将Hive数据按行进行过滤。前提条件 已创建集群,并选择了Ranger服务,详情请参见 创建集群。已创建按...
DSC 在您完成数据源识别授权后,从您存储在OSS的海量数据中快速发现和定位敏感数据,对敏感数据分类分级并统一展示,同时追踪敏感数据的使用情况,并根据预先定义的安全策略,对数据进行保护和审计,以便您随时了解OSS数据资产的安全状态。...
在 数据导入 页签上传并预览数据文件。您可选择仅预览DataWorks中已存在的同名字段,根据需要进行同名字段的删除、修改等处理。说明 导入模式 及 导入状态 根据所选导入类型确定。导入模式:当DataWorks中已存在导入文件的同名对象,则导入...
问题描述 Quick BI新建hive数据源后将简单SQL放到数据集中运行报错io.grpc.StatusRuntimeException:INTERNAL:java.sql.SQLException:org.apache.spark.sql.catalyst.parser.ParseException,错误情况如下:问题原因 将spark数据源当作hive...
Top导入热表潜在小文件分析 针对表级别的数据导入情况,系统将会对每个表的所有导入任务生成的数据文件进行深入分析,以评估其潜在的小文件问题严重程度,并据此计算出一个影响得分。根据该得分从高至低排序,选出Top 20个受小文件问题影响...
mysql-h${DBConnectionURL}-u${ConnectionUserName}-p 登录Hive数据库后,修改Location为该Region真实存在的OSS路径即可。如何登录内置的MySQL?通过SSH方式连接集群。详情请参见 登录集群。执行以下命令,登录内置的MySQL。mysql-uroot-...
Ranger支持对Hive数据的脱敏处理(Data Masking),即可以对Select的返回结果脱敏,以屏蔽敏感信息。背景信息 该功能只针对HiveServer2的场景(例如,Beeline、JDBC和Hue等途径执行的Select语句)。操作步骤 说明 本文Ranger截图以2.1.0...
在 数据导入 页签上传并预览数据文件。您可选择仅预览DataWorks中已存在的同名字段,根据需要进行同名字段的删除、修改等处理。说明 导入模式 及 导入状态 根据所选导入类型确定。导入模式:当DataWorks中已存在导入文件的同名对象,则导入...