数美大数据-数美大数据文档介绍内容-阿里云

配置同步任务

数据库类型数据源关系型数据库 MySQL、Oracle、Microsoft SQL Server、PostgreSQL、AnalyticDB for PostgreSQL 开源大数据数仓存储 Hive、TDH Inceptor 说明 HBase作为数据源或者目标数据源，支持的版本为HBase V1.1.x、HBase V0.94.x。...

使用Stage和Task详情分析查询

表数据读取量当某个Stage的算子树中有表扫描节点（TableScan）时，表示该Stage的所有表扫描节点从源表读取的数据行数和数据大小。对该字段进行排序，可以判断源表数据是否存在数据倾斜。如果存在数据倾斜，您可以通过控制台进行分布字段...

Iceberg概述

删除或更新数据大部分数仓都难以实现较为高效的行级数据删除或更新，通常需要启动离线作业把整个表原始数据读取出来，然后变更数据后，写入到一个原始表。而Iceberg成功把变更的范围从表级别缩小到了文件级别，从而可以通过局部变更来完成...

配置数据校验

每秒读取的最大数据行数rps 全量数据校验会占用数据库一定的读取资源，您可以根据实际情况对全量校验任务进行限速设置（每秒读取的数据行数和数据量），以缓解数据库的压力。说明参数值为0时表示无限制，当每秒读取的最大数据行数rps 和 ...

基于AnalyticDB构建企业数仓

同步速率设置同步速率可以保护读取端数据库，以避免抽取速度过大，给源库造成太大的压力。同步速率建议限流，结合源库的配置，请合理配置抽取速率。错误记录数错误记录数，表示脏数据的最大容忍条数。独享数据集成资源组选择任务运行的...

准备数据

参数描述任务期望最大并发数数据同步任务内，可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数，指定任务所使用的并行度。同步速率设置同步速率可以保护读取端数据库，以避免抽取速度过大，给源库造成...

Amazon Redshift数据源

Amazon Redshift数据源为您提供读取和写入Amazon Redshift的双向通道，方便您后续可以通过向导模式和脚本模式配置数据同步任务。...否无 batchSize 每批次导入的最大数据条数。否 2048 writeMode 目前只支持insert。否 insert

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

DescribePackages-查询数据包的信息

调用本接口查询已完成扫描授权的MaxCompute数据包的信息，例如数据包的名称、数据包所属者的账号、数据包的风险等级等。接口说明本接口一般用于 MaxCompute 数据包列表查询，便于搜索和敏感信息概览。QPS 限制本接口的单用户 QPS 限制为 ...

DescribeColumns-查询数据资产表中列的数据

调用DescribeColumns接口查询数据安全中心连接授权的MaxCompute、RDS等数据资产表中列的数据。接口说明本接口一般用于敏感数据资产信息表中列数据的查看，便于用户准确的对敏感数据进行分析。注意事项 DescribeColumns 接口已修订为 ...

DescribeDataAssets-查询数据资产敏感信息

取值：1：未识别到敏感数据，无风险 2：1 级敏感数据风险 3：2 级敏感数据风险 4：3 级敏感数据风险 5：4 级敏感数据风险 6：5 级敏感数据风险 7：6 级敏感数据风险 8：7 级敏感数据风险 9：8 级敏感数据风险 10：9 级敏感数据风险 11：10 ...

DescribeTables-查询数据资产表的数据

查询数据安全中心连接授权的MaxCompute、RDS等数据资产的表数据。接口说明在调用 DescribeTables 接口时，您可以设置搜索关键词、数据资产表的风险等级等参数来获取符合要求的数据资产的表信息。QPS 限制本接口的单用户 QPS 限制为 10 次...

应用场景

应用场景 1.实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接...大数据实时化数仓是大数据的基础，实时化的数仓能够让BI、报表、推荐（用户标签产出）等多种业务收益，大数据系统总体向实时化迈进。

权限管理与规范化数据开发

根据表血缘来配置节点调度依赖后，可以保障调度任务在运行时能取到正确的数据，避免下游节点取数据时，上游表数据还未正常产出，导致下游节点取数出现问题。在DataWorks依赖配置中，上游节点的输出作为下游节点的输入，形成节点依赖关系。...

离线同步并发和限流之间的关系

同步速率：数据同步速率和任务期望最大并发数是比较强相关的参数，两者结合在一起可以保护数据来源和数据去向端的读写压力，以避免数据同步任务对数据源带来较大压力，影响数据源的稳定性。同步速率（不限流）是指按照用户配置的任务期望...

支持的数据源

数据入仓类别数据源导入方式产品系列文档链接数据库 RDS MySQL 外表数仓版（3.0）通过外表导入至数仓版湖仓版（3.0）通过外表导入至湖仓版 DTS 数仓版（3.0）通过DTS导入数据湖仓版（3.0）通过DTS导入数据 DataWorks 数仓版（3.0...

应用场景

Databricks数据洞察（简称DDI）的核心引擎是Databricks Runtime和Databricks Delta ...实时数仓利用Databricks Delta Lake的ACID事务特性，可以构建云上大数据的实时数仓。icmsDocProps={'productMethod':'created','language':'zh-CN',};

概览

集群管理系统的概览页面提供了云原生多模数据库 Lindorm 实例宽表引擎中所有表的详细信息，包括表的大小、分片情况、数据预览、表结构、限流信息等。本文介绍如何通过集群管理系统管理宽表。前提条件已登录目标实例的集群管理系统，具体...

配置安全规则

将数据库添加到数据库审计系统后，您可以为数据库配置安全规则（即审计规则），当数据库的审计记录命中审计规则时，数据库审计系统会触发告警。本文介绍如何配置审计规则。背景信息审计规则支持内置规则和自定义规则。内置规则即数据库...

使用DataWorks同步数据

本文以MaxCompute为例介绍如何将数据通过DataWorks同步至云数据库ClickHouse。背景信息您可以通过DataWorks，将支持的各种数据源数据离线同步至云数据库ClickHouse。离线同步支持的数据源类型，具体请参见支持的数据源与读写插件。前提...

Flink数据导入

本文介绍如何将开源Flink中的数据导入 AnalyticDB MySQL版数仓版（3.0）集群。前提条件下载Flink驱动，并将其部署到Flink所有节点的${flink部署目录}/lib 目录下。您可以根据Flink版本下载对应的驱动：Flink 1.11版本：flink-connector-...

数据导入性能优化

如果单条数据量过大达到数百KB，建议攒批数据大小不超过8 MB，可通过8 MB/单条数据量得到攒批条数。否则单批过大容易占用过多前端节点内存，影响导入性能。应用端并发配置应用端导入数据时，建议多个并发同时导入数据。单进程无法完全利用...

数据导入性能优化

如果单条数据量过大达到数百KB，建议攒批数据大小不超过8 MB，可通过8 MB/单条数据量得到攒批条数。否则单批过大容易占用过多前端节点内存，影响导入性能。应用端并发配置应用端导入数据时，建议多个并发同时导入数据。单进程无法完全利用...

SelectDB数据源

否无 maxBatchRows 每批次导入数据的最大行数。和 batchSize 共同控制每批次的导入数量。每批次数据达到两个阈值之一，即开始导入这一批次的数据。否 500000 batchSize 每批次导入数据的最大数据量。和 maxBatchRows 共同控制每批次的导入...

整库离线同步至Elasticsearch

步骤六：运行资源设置该同步方案将分别创建全量离线同步任务和增量离线同步任务，您可以在此步骤配置任务名称及任务执行所使用的调度资源组与数据集成任务执行资源组，同时，数据集成提供数据库最大连接数、并发数等配置的默认值，如果您...

实时同步常见问题

若源端数据更新快，数据量多，但同步延迟大，您可以：修改任务配置：您可以在源端数据库最大连接数许可范围内，基于同步库或表个数综合评估调整实时同步并发数。说明并发设置上限为当前资源组支持的最大并发数。不同规格资源组支持的最大...

MySQL分库分表同步至Hologres（方案2.0）

步骤六：高级参数配置数据集成提供数据库最大连接数，并发度等配置的默认值，如果需要对任务做精细化配置，达到自定义同步需求，您可对参数值进行修改，例如通过最大连接数上限限制，避免当前同步方案对数据库造成过大的压力从而影响生产...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中，也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute ...

全增量实时同步至Hologres

步骤六：高级参数配置数据集成提供数据库最大连接数，并发度等配置的默认值，如果需要对任务做精细化配置，达到自定义同步需求，您可对参数值进行修改，例如通过最大连接数上限限制，避免当前同步方案对数据库造成过大的压力从而影响生产...

RestAPI（HTTP形式）数据源

举2个示例如下：以接口返回数据body如下举例，其中业务数据在DATA内，且接口一次返回了多行数据（DATA是一个数组）：{"HEADER":{"BUSID":"bid1","RECID":"uuid","SENDER":"dc","RECEIVER":"pre","DTSEND":"202201250000"},"DATA":[{"SERNR...

数据集成侧同步任务配置

设置任务运行资源在此步骤中，您可以配置任务名称及任务执行所使用的资源组，同时，数据集成提供数据库最大连接数、并发数等配置的默认值，如果您需要对任务做精细化配置，您可通过高级配置进行修改。如果您选择一键实时同步方案，该...

数据导入方式介绍

为满足多样化的数据导入需求，云原生数据仓库AnalyticDB MySQL版提供了多种数据导入方式，包括：通过外表导入数据、使用DataWorks导入数据和利用JDBC通过程序导入数据等。本文介绍各导入方式的特性及适用场景，帮助您选择正确的数据导入...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

使用数据传输同步数据

数据同步能够保持源端和目标端的数据一致性，实现关键业务的数据实时流动。本文以同步 OceanBase 数据库的数据至 Kafka 为例，介绍如何使用数据传输同步数据。前提条件在同步数据之前，您需要确认以下信息：数据传输已具备云资源访问权限...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

逻辑数仓

数据管理DMS提供的逻辑数仓具有强大的数据源管理能力，可以实现将企业的异构数据源进行逻辑聚合，形成物理分散、逻辑统一的虚拟数仓，然后快速地提供数据分析和访问服务，满足业务人员、BI分析师、运营人员等各种角色的需求。背景信息企业...

Github实时数据同步与分析

操作难度易所需时间 55分钟使用的阿里云产品实时数仓Hologres 云原生大数据计算服务 MaxCompute 专有网络VPC 大数据开发治理平台 DataWorks DataV数据可视化所需费用 0元阿里云提供一定额度的资源包供您免费体验，开通后会使用计算...

使用数据传输迁移数据

您可以通过数据迁移功能实时迁移其他数据源的数据至 OceanBase 数据库，以及迁移 OceanBase 数据库的数据至其他数据源。本文以迁移 MySQL 数据库的数据至 OceanBase 数据库为例，介绍如何使用数据传输迁移数据。前提条件在迁移数据之前，...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

OceanBase 数据库 MySQL 租户之间的数据同步

本文为您介绍如何创建 OceanBase 数据库 MySQL 租户（简称为 OB_MySQL）至 OceanBase 数据库 MySQL 租户的数据同步项目。前提条件数据传输已具备云资源访问权限。详情请参见数据传输迁移角色授权。已为 OceanBase 数据库创建专用于数据...

数美 大数据

新品推荐

数美大数据