大数据收集端-大数据收集端文档介绍内容-阿里云

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

功能简介

用户可选择已经注册的数据源端数据，并选定目标端创建同步任务。系统提供目标端自动建表、源端目标端字段自动映射、批量创建同步任务和引用数据模块进行同步任务配置等多种便捷同步任务创建能力，帮助用户更便捷的完成数据同步配置。在完成...

数据同步

支持自定义选择已经注册的数据源端数据和目标端，支持多种常见离线同步链路，如PostGIS、Ganos、超图SDX和ArcGIS SDE的空间数据同步到PostGIS和Ganos中（邀测中）。提供全量任务自动建表、同名字段自动映射、任务调度配置功能。支持对离线...

功能简介

支持自定义选择已经注册的数据源端数据和目标端，支持多种常见离线同步链路，如PostGIS、Ganos、超图SDX和ArcGIS SDE的空间数据同步到PostGIS和Ganos中（邀测中）。提供全量任务自动建表、同名字段自动映射、任务调度配置功能。支持对离线...

全增量实时同步至Hologres

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

实时同步常见问题

若源端数据更新快，数据量多，但同步延迟大，您可以：修改任务配置：您可以在源端数据库最大连接数许可范围内，基于同步库或表个数综合评估调整实时同步并发数。说明并发设置上限为当前资源组支持的最大并发数。不同规格资源组支持的最大...

常见问题

本文为您介绍执行MaxCompute准备工作过程中的...MaxCompute Studio是阿里云MaxCompute平台提供的安装在开发者客户端的大数据集成开发环境工具，目前支持集成安装的平台有IntelliJ IDEA、PyCharm。配置详情，请参见配置MaxCompute Studio。

开发运维建议

除ETL（Extract-Transform-Load）程序外，建议避免向客户端返回大数据量，若数据量过大，应该考虑相应需求是否合理。对于需要范围查询的场景，建议使用范围类型以及GiST索引，提高范围检索的查询性能。如果应用经常访问较大结果集的数据...

全量数据同步

通过选择已注册的数据源端数据和目标端，实现全量任务自动建表的方式创建离线同步周期任务，本文介绍如何创建MySQL to MaxCompute离线全量数据同步一次性调度的任务。前提条件已新建工作组，具体操作，请参见新建工作组。已在工作组中...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

MySQL分库分表同步至Hologres（方案2.0）

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

自建SQL Server通过物理网关迁移上云

源端数据库名称不能与某些系统库名或者其他不能使用的库名重复，列举如下：reserved_dbname=["master","tempdb","msdb","model","distribution","rdscore","sys_info"]源端SQL Server网络需满足如下条件：若源端未开启防火墙，且源端为阿里...

自建SQL Server通过物理网关迁移上云

源端数据库名称不能与某些系统库名或者其他不能使用的库名重复，列举如下：reserved_dbname=["master","tempdb","msdb","model","distribution","rdscore","sys_info"]源端SQL Server网络需满足如下条件：若源端未开启防火墙，且源端为阿里...

使用SSMS和BCP迁移SQL Server数据库

前提条件目标数据库主机需要有充足的存储空间来存放导入的数据和因此而带来的日志文件增长，两者加起来的空间增长大概是源端数据库大小的2-3倍（如果数据库是Full模式）。如果目标数据库是在本地自建环境，请确保宿主机有足够的存储空间；...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

创建MySQL to MaxCompute离线同步周期任务

通过选择已注册的数据源端数据和目标端，实现全量任务自动建表的方式创建离线同步周期任务，本文介绍如何创建MySQL to MaxCompute离线同步周期任务。前提条件已新建工作组“信息中心(xxzx)”，具体操作，请参见新建工作组。已在工作组中...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

增量数据同步

通过选择已注册的数据源端数据和目标端，实现增量任务自动建表的方式创建离线同步周期任务，本文介绍如何创建MySQL to MaxCompute离线增量数据同步周期调度的任务。前提条件已新建工作组“信息中心（xxzx）”，具体操作，请参见新建工作...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

批量新增离线数据同步任务

已完成源端数据和目标端的物理表同步，具体操作，请参见获取物理表。已添加离线数据同步任务目录，具体操作，请参见添加任务目录。操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，...

批量新增离线数据同步任务

已完成源端数据和目标端的物理表同步，具体操作，请参见获取物理表。已添加离线数据同步任务目录，具体操作，请参见添加任务目录。操作步骤登录企业数据智能平台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择...

新增实时任务

已完成源端数据和目标端数据源同步Meta，具体操作，请参见同步元数据。已添加实时同步任务目录，具体操作，请参见添加任务目录。操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择...

新增实时任务

已完成源端数据和目标端数据源同步Meta，具体操作，请参见同步元数据。已添加实时同步任务目录，具体操作，请参见添加任务目录。操作步骤登录企业数据智能平台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

自媒体：易撰

业务端数据存储量大，TB级数据存储诉求，且数据量持续高速增长。业务端数据有更新诉求，对事务有强一致性要求。解决方案通过 PolarDB-X+RDS的分布式数据库架构承载数据获取端高并发写。通过 PolarDB-X+PolarDB承载大范围时间查询业务场景...

云产品集成

您可以使用 DMS 录入云数据库 OceanBase 的数据，通过 DMS 的全域数据资产管理、数据治理、数据库设计开发、数据集成、数据开发和数据消费等功能，帮助企业高效、安全地挖掘数据价值，助力企业数字化转型。什么是数据管理DMS 支持的数据库...

数据质量：全流程的质量监控

数据质量帮助您第一时间感知到源端数据的变更与ETL（Extract Transformation Load）中产生的脏数据，自动拦截问题任务，有效阻断脏数据向下游蔓延。说明 ETL是抽取、转换和加载源端数据至目的端的过程。数据质量以数据集（DataSet）为监控...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

设置增量同步位点

设置增量同步位点时，仅支持选择当前时间或当前时间之前的时间点，并且不能晚于您设置的源端数据库增量日志的过期时间或归档时间。适用场景您可以通过设置增量同步位点的方式实现以下场景：您在创建数据迁移或数据同步项目前，已确保源端...

新增离线数据同步任务

已完成源端数据和目标端的物理表同步，具体操作，请参见获取物理表。已添加离线数据同步任务目录，具体操作，请参见添加任务目录。操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，...

新增离线数据同步任务

已完成源端数据和目标端的物理表同步，具体操作，请参见获取物理表。已添加离线数据同步任务目录，具体操作，请参见添加任务目录。操作步骤登录企业数据智能平台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择...

如何区分导入数据接口和请求数据接口

接口区别示意图接口区别详细介绍请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如数字翻牌器配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:"1"}，则最终请求接口为 ...

迁移 PolarDB-X 1.0 数据库的数据至 OceanBase 数据库...

增量同步增量同步任务开始后，数据传输会同步源端数据库发生变化的数据（新增、修改或删除）至目标端数据库对应的表中。增量同步支持的同步 DML 包括 Insert、Delete 和 Update，您可以根据需求进行选择。详情请参见 DML 过滤。全量校验 ...

新增多表实时任务

已完成源端数据和目标端的物理表同步，具体操作，请参见获取物理表。已添加同步任务目录，具体操作，请参见添加任务目录。操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标...

新增多表实时任务

已完成源端数据和目标端的物理表同步，具体操作，请参见获取物理表。已添加同步任务目录，具体操作，请参见添加任务目录。操作步骤登录企业数据智能平台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组...

实验介绍

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集，...

同阿里云主账号访问

在进行数据同步前，您需要确保用于执行同步任务的独享数据集成资源组与您将要同步的数据来源端与目的端数据源的网络连通性。本文为您介绍数据源与DataWorks工作空间同阿里云主账号时如何进行网络连通。背景信息网络连通方案选择取决于数据...

查看数据迁移项目的详情

全量迁移加上增量同步，可以确保目标端数据库与源端数据库的最终一致性。如果全量迁移过程中有失败的对象，会为您展示具体的失败原因。重要如果您在选择迁移类型时未配置结构迁移，则全量迁移时，数据传输会以源端和目标端匹配的字段...

大数据收集端

新品推荐