数加大数据-数加大数据文档介绍内容-阿里云

实验介绍

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集，...

配置ClickHouse输出组件

批量插入字节大小、批量条数批量插入字节大小和批量条数均为数据同步的性能参数，用于调试数据同步的速度。批量插入字节大小：数据同步过程中每一次写入数据的字节数据量，默认字节大小为67108864，也就是64MB。批量条数：数据同步过程...

配置ClickHouse输入组件

批量条数配置数据同步时每条并发SQL语句读取数据的条数，默认的批量条数为1024。输入过滤配置抽取数据的筛选条件。详细配置说明如下：配置固定值，用于抽取对应的数据，例如 ds=20211111。配置变量参数，用于抽取某一部分的数据，例如 ds...

计费说明-半托管

智能研发版定价数据处理单元规格定价（CNY/年）500 298,000 1000 397,800 1500 497,600 2000 597,400 2500 697,200 3000 797,000 数据处理单元统计规则：数据处理单元总量=（数据同步任务数+数据集成任务数）/3+计算任务数（离线和实时）...

配置Oracle输入组件

批量条数配置数据同步时，每条并发SQL语句读取数据的条数，默认的批量条数为1024。编码方式选择读取数据的编码方式。Dataphin支持选择的编码方式包括 UTF-8、GBK 和 ISO-8859-1。输入过滤配置抽取数据的筛选条件。详细配置说明如下：...

快速体验

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、...

配置API输出组件

配置API输出组件，可以将外部数据库中读取的数据写入到API，或从大数据平台对接的存储系统中将数据复制推送至API，进行数据整合和再加工。本文为您介绍如何配置API输出组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建API...

配置API输出组件

配置API输出组件，可以将外部数据库中读取的数据写入到API，或从大数据平台对接的存储系统中将数据复制推送至API，进行数据整合和再加工。本文为您介绍如何配置API输出组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建API...

配置Oracle输入组件

批量条数配置数据同步时，每条并发SQL语句读取数据的条数，默认的批量条数为1024。编码方式选择读取数据的编码方式。Dataphin支持选择的编码方式包括 UTF-8、GBK 和 ISO-8859-1。输入过滤配置抽取数据的筛选条件。详细配置说明如下：...

配置AnalyticDB for PostgreSQL输入组件

批量条数配置数据同步时，每条并发SQL语句读取数据的条数，默认的批量条数为1024。输入过滤配置抽取数据的筛选条件。详细配置说明如下：配置固定值，抽取对应的数据，例如 ds=20210101。配置变量参数，抽取某一部分数据，例如 ds=${...

使用Stage和Task详情分析查询

表数据读取量当某个Stage的算子树中有表扫描节点（TableScan）时，表示该Stage的所有表扫描节点从源表读取的数据行数和数据大小。对该字段进行排序，可以判断源表数据是否存在数据倾斜。如果存在数据倾斜，您可以通过控制台进行分布字段...

租户设置

资源使用说明总的处理单元规格数和总的质量规则数与客户购买的数据处理单元和规则配额有关。详情请参见查看资源使用情况。新建租户使用超级管理员或系统管理员账号，登录元仓租户。在Dataphin首页，单击顶部菜单栏的管理中心。在管理...

配置AnalyticDB for PostgreSQL输入组件

批量条数配置数据同步时，每条并发SQL语句读取数据的条数，默认的批量条数为1024。输入过滤配置抽取数据的筛选条件。详细配置说明如下：配置固定值，抽取对应的数据，例如 ds=20210101。配置变量参数，抽取某一部分数据，例如 ds=${...

配置ClickHouse输入组件

批量条数配置数据同步时每条并发SQL语句读取数据的条数，默认的批量条数为1024。输入过滤配置抽取数据的筛选条件。详细配置说明如下：配置固定值，用于抽取对应的数据，例如 ds=20211111。配置变量参数，用于抽取某一部分的数据，例如 ds...

配置AnalyticDB for MySQL 3.0输入组件

批量条数配置数据同步过程中每个并发SQL语句读取数据的条数。输入过滤填写输入字段的过滤信息，例如 ds=${bizdate}。输入过滤适用于以下两种场景：固定的某一部分数据。参数过滤。输出字段输出字段区域展示了已选中表的所有字段。如果不...

创建项目空间

数据管理DMS数仓开发通过项目空间、业务场景和任务流三级目录讲行项目管理，同时支持数仓分层管理，有利于清晰地管理某一情景下的数据仓库管理需求，充分满足各类复杂的数仓开发和管理需求。项目空间是数仓开发、管理和运维的基本单位，...

MMA概述

说明校验⽅式：在Hive端和MaxCompute端对同⼀个表（或多个分区）执⾏ SELECT COUNT(*)命令，通过对⽐两端的⾏数验证数据是否迁移成功。通过OSS迁移Hive数据到MaxCompute。该场景会先将数据迁移到OSS,然后通过MaxCompute读取OSS数据。数据...

数据集成概述

说明以业务数据库数据同步到MaxCompute数据仓库为例，当有大量的数据存储在数据库系统里，需要将数据库中的全量及增量数据同步到MaxCompute进行数仓分析时，数据集成传统方式是通过全量同步或者依赖数据库表中的 modify_time 等字段进行...

离线同步数据质量排查

如果数据同步任务执行完成后，对于数据同步质量（数据条数、数据内容）有相关疑问，在写出端您可以尝试从下列常见情况对照排查：原因问题描述解决方案写出模式选择导致 Writer插件会使用选择的写出模式将源头数据在目标端执行重放，如果...

一键建仓

后续步骤您可以在数据分析工单详情页的底部，进行如下操作：单击 SQL Console，实时分析数仓数据，更多信息，请参见 SQL窗口介绍。单击任务编排，采用SQL等方式进行ETL（Extract-Transform-Load）开发，更多信息，请参见任务编排概览。...

整库离线同步至Elasticsearch

步骤六：运行资源设置该同步方案将分别创建全量离线同步任务和增量离线同步任务，您可以在此步骤配置任务名称及任务执行所使用的调度资源组与数据集成任务执行资源组，同时，数据集成提供数据库最大连接数、并发数等配置的默认值，如果您...

配置管理

数据变更工单在执行之前，会校验此次变更的影响行数，在数据量较大的情况下，校验时间会很长。为了数据变更能够顺利执行，可以设置校验影响行数的超时时间，单位为秒。如果超过这个时间，则放弃校验影响行数。数据变更原因分类取值：JSON...

资源分析

全局指标全局指标包含业务来源表、总任务数、总表数、项目数、开发者数和数据回流表 6个指标。业务来源表：以计算引擎源为同步目标，以物理数据源（业务）为来源的同步数据表数量。总任务表：报告日期对应的任务实例总数。总表数：全局...

Kafka实时入湖建仓分析

DLA Lakehouse实时入湖方案利用数据湖技术，重构数仓语义，分析数据湖数据，实现数仓的应用。本文介绍Kafka实时入湖建仓分析的操作步骤。前提条件已在DLA中开通云原生数据湖分析服务。更多信息，请参见开通云原生数据湖分析服务。已创建...

支持的数据源

数据入仓类别数据源导入方式产品系列文档链接数据库 RDS MySQL 外表数仓版（3.0）通过外表导入至数仓版湖仓版（3.0）通过外表导入至湖仓版 DTS 数仓版（3.0）通过DTS导入数据湖仓版（3.0）通过DTS导入数据 DataWorks 数仓版（3.0...

A100使用指南

如果同一数据库IP具有多个数据库端口，则需要占用的数据库实例数为数据库端口数。1个数据库IP和1个数据库端口，即为一个数据库实例；1个数据库IP和N个数据库端口，即为N个数据库实例。例如：用户有2个数据库资产分别为IP 1、IP 2，IP 1有...

配置数据校验

每秒读取的最大数据行数rps 全量数据校验会占用数据库一定的读取资源，您可以根据实际情况对全量校验任务进行限速设置（每秒读取的数据行数和数据量），以缓解数据库的压力。说明参数值为0时表示无限制，当每秒读取的最大数据行数rps 和 ...

资源分析

全局指标全局指标包含业务来源表、总任务数、总表数、项目数、开发者数和数据回流表 6个指标。业务来源表：以计算引擎源为同步目标，以物理数据源（业务）为来源的同步数据表数量。总任务表：报告日期对应的任务实例总数。总表数：全局...

通过数据闪回按时间点恢复数据

若新增或删减了集群架构的分片数，数据闪回功能备份的新、老节点数据可能会不一致，如需继续使用请重新配置。若执行了变更配置、升级小版本等操作，可恢复的时间点将以完成变更配置的时间点为起点。云原生版实例仅支持恢复全量数据至新...

通过数据闪回按时间点恢复数据

若新增或删减了集群架构的分片数，数据闪回功能备份的新、老节点数据可能会不一致，如需继续使用请重新配置。若执行了变更配置、升级小版本等操作，可恢复的时间点将以完成变更配置的时间点为起点。云原生版实例仅支持恢复全量数据至新...

发现

包括数据指标数、总数据表总量、总数据存储量、数据服务接口数和各趋势分析图。数据指标数趋势分析：展示已公开的资产过去7天、过去30天、过去90天及自定义时间范围内的指标趋势图。运营分析：展示已公开的资产，对全租户下已公开到资产...

导出结构和数据

导出对象信息显示该任务中用户选择的对象在导出数据时的完成情况，包括对象名称、对象类型、结构处理状态、实际处理数和数据处理状态等信息。任务流程在目标任务的任务详情面板中，单击任务流程标签查看发起任务、审批和执行 ...

RestAPI Reader最佳实践

数据集成RestAPI Reader插件提供了读取RESTful接口数据的能力，通过配置HTTP请求地址，可获取RestAPI类型的数据源数据（例如获取时间范围内的数据、获取分页数据、循环请求参数获取数据等），并转换为数据集成支持的数据类型，传递给下游...

配置SAP Table输入组件

批量条数批量读取数据的条数，可根据数据库性能以及数据量修改。输出字段输出字段区域展示了已选中表的所有字段。如果不需要将某些字段输出至下游组件，则您可以删除对应的字段：如果需要删除少量的字段，则可以单击操作列下的图标，...

配置SAP Table输入组件

批量条数批量读取数据的条数，可根据数据库性能以及数据量修改。输出字段输出字段区域展示了已选中表的所有字段。如果不需要将某些字段输出至下游组件，则您可以删除对应的字段：如果需要删除少量的字段，则可以单击操作列下的图标，...

资产全景

在流动页面，为您可视化展示数据引入、物理表数和逻辑表数，为您提供数据输出后的数据查询及应用功能：将鼠标悬停在数据引入模块上，为您展示的数据源个数、数据表接入量Top5 和数据表接入量Least5。数据源：统计昨天有数据同步...

资产全景

在流动页面，为您可视化展示数据引入、物理表数和逻辑表数，为您提供数据输出后的数据查询及应用功能：将鼠标悬停在数据引入模块上，为您展示的数据源个数、数据表接入量Top5 和数据表接入量Least5。数据源：统计昨天有数据同步...

新功能发布记录

数据库迁移新版数仓开发新增数仓开发通过项目空间、业务场景和任务流三级目录讲行项目管理，同时支持数仓分层管理，有利于清晰地管理某一情景下的数据仓库管理需求，充分满足各类复杂的数仓开发和管理需求。创建项目空间 01月功能名称 ...

查看数据校验详情

总记录数是校验数据的估算值，校验完成记录数是已完成校验数据的值，因此校验完成记录数可能会高于总记录数。若不一致记录量的值为 0，则表示源实例与目标实例的数据一致。此时，您无需查看或下载校验报告（校验报告无数据）。若不...

数据投递

数据传输服务DTS（Data Transmission Service）提供的数据投递功能，用户可以通过SDK将各种类型的数据源投递到DTS，再由DTS同步至目标数据库，从而支持更多类型的数据源。应用场景数据投递功能适用于以下任一场景：源端为DTS同步方案暂不...

数加大数据

新品推荐