大数据利端-大数据利端文档介绍内容-阿里云

常见问题

本文为您介绍执行MaxCompute准备工作过程中的...MaxCompute Studio是阿里云MaxCompute平台提供的安装在开发者客户端的大数据集成开发环境工具，目前支持集成安装的平台有IntelliJ IDEA、PyCharm。配置详情，请参见配置MaxCompute Studio。

全增量实时同步至Hologres

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

开发运维建议

除ETL（Extract-Transform-Load）程序外，建议避免向客户端返回大数据量，若数据量过大，应该考虑相应需求是否合理。对于需要范围查询的场景，建议使用范围类型以及GiST索引，提高范围检索的查询性能。如果应用经常访问较大结果集的数据...

实时同步常见问题

若源端数据更新快，数据量多，但同步延迟大，您可以：修改任务配置：您可以在源端数据库最大连接数许可范围内，基于同步库或表个数综合评估调整实时同步并发数。说明并发设置上限为当前资源组支持的最大并发数。不同规格资源组支持的最大...

MySQL分库分表同步至Hologres（方案2.0）

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

自建SQL Server通过物理网关迁移上云

源端数据库名称不能与某些系统库名或者其他不能使用的库名重复，列举如下：reserved_dbname=["master","tempdb","msdb","model","distribution","rdscore","sys_info"]源端SQL Server网络需满足如下条件：若源端未开启防火墙，且源端为阿里...

自建SQL Server通过物理网关迁移上云

源端数据库名称不能与某些系统库名或者其他不能使用的库名重复，列举如下：reserved_dbname=["master","tempdb","msdb","model","distribution","rdscore","sys_info"]源端SQL Server网络需满足如下条件：若源端未开启防火墙，且源端为阿里...

使用SSMS和BCP迁移SQL Server数据库

前提条件目标数据库主机需要有充足的存储空间来存放导入的数据和因此而带来的日志文件增长，两者加起来的空间增长大概是源端数据库大小的2-3倍（如果数据库是Full模式）。如果目标数据库是在本地自建环境，请确保宿主机有足够的存储空间；...

自媒体：易撰

业务端数据存储量大，TB级数据存储诉求，且数据量持续高速增长。业务端数据有更新诉求，对事务有强一致性要求。解决方案通过 PolarDB-X+RDS的分布式数据库架构承载数据获取端高并发写。通过 PolarDB-X+PolarDB承载大范围时间查询业务场景...

区域下钻热力层（v2.x版本）

动作动作说明请求默认区域重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如区域下钻热力层配置了API数据源为 http://api.test ，传到请求默认区域动作的数据为 { id:'1'}，则最终请求接口为 ...

自定义区域下钻层（v3.x版本）

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如自定义区域下钻层配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

区域热力层（v3.x版本）

请求地理边界geojson数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如区域热力层配置了API数据源为 https://api.test ，传到请求地理边界geojson数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

区域热力层（v2.x版本）

动作动作说明请求地理边界geojson数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如区域热力层配置了API数据源为 http://api.test ，传到请求地理边界geojson数据接口动作的数据为 { id:'1'}，则...

数据集成概述

数据集成是稳定高效、弹性伸缩...在数据集成同步任务配置前，您可以在DataWorks 数据源管理页面，配置好您需要同步的源端和目标端数据库或数据仓库的相关信息，并在同步过程中，通过选择数据源名称来控制同步读取和写入的数据库或数据仓库。

离线同步并发和限流之间的关系

在源端数据分布极不均衡的场景，会导致部分数据分片执行耗时较久（其他分片已经完成传输），在任务执行后期阶段任务实际并发数会少于配置并发数。任务并发数配置最佳实践：任务并发数越大，任务运行需要抢占的资源越多，DataWorks数据集成...

基于AnalyticDB构建企业数仓

同步速率设置同步速率可以保护读取端数据库，以避免抽取速度过大，给源库造成太大的压力。同步速率建议限流，结合源库的配置，请合理配置抽取速率。错误记录数错误记录数，表示脏数据的最大容忍条数。独享数据集成资源组选择任务运行的...

读取优化

Result[]re=table.get(List<Get>gets)大scan缓存是否设置合理 scan一次性需求从服务端返回大量的数据，客户端发起一次请求，服务端会分多批次返回客户端，这样的设计是避免一次性传输较多的数据给服务端及客户端有较大的压力。目前数据会...

使用DataWorks

选择数据来源和数据去向后，需要指定读取端和写入端列的映射关系，配置字段映射关系后，任务将根据字段映射关系，将源端字段写入目标端对应类型的字段中。具体操作请参见配置字段映射关系。配置通道控制。您可通过通道配置，控制数据同步...

准备数据

同步速率设置同步速率可以保护读取端数据库，以避免抽取速度过大，给源库造成太大的压力。同步速率建议限流，结合源库的配置，请合理配置抽取速率。错误记录数错误记录数，表示脏数据的最大容忍条数。确认当前节点的配置无误后，单击左上...

离线同步常见问题

数据同步原则：来源端数据源的数据要能写入目的端数据源（来源端和目的端类型需要匹配，字段定义的大小需要匹配），即源端数据类型需要与写端数据类型匹配，源端是VARCHAR类型的数据不可写到INT类型的目标列中；目标端的数据类型定义的大小...

离线同步任务调优

数据同步速度的影响因素数据同步速度受来源与目标端数据库环境及同步任务配置等因素影响，其中源端和目的端数据库的性能、负载和网络情况主要由您自己关注并进行调优。影响数据同步速度的因素如下：因素说明来源端数据源数据库的性能：...

常见错误码及排查方法

解法【示例2】：在目标端数据库侧修复问题（比如提高 MAX_CONNECTION_ERRORS 的值）后，重启任务。DTS-10015 无法连接到Redis。DTS-10015:unreachable redis network.JedisConnectionException:Could not get a resource from the ...

功能简介

用户可选择已经注册的数据源端数据，并选定目标端创建同步任务。系统提供目标端自动建表、源端目标端字段自动映射、批量创建同步任务和引用数据模块进行同步任务配置等多种便捷同步任务创建能力，帮助用户更便捷的完成数据同步配置。在完成...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

数据同步

支持自定义选择已经注册的数据源端数据和目标端，支持多种常见离线同步链路，如PostGIS、Ganos、超图SDX和ArcGIS SDE的空间数据同步到PostGIS和Ganos中（邀测中）。提供全量任务自动建表、同名字段自动映射、任务调度配置功能。支持对离线...

功能简介

支持自定义选择已经注册的数据源端数据和目标端，支持多种常见离线同步链路，如PostGIS、Ganos、超图SDX和ArcGIS SDE的空间数据同步到PostGIS和Ganos中（邀测中）。提供全量任务自动建表、同名字段自动映射、任务调度配置功能。支持对离线...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

全量数据同步

通过选择已注册的数据源端数据和目标端，实现全量任务自动建表的方式创建离线同步周期任务，本文介绍如何创建MySQL to MaxCompute离线全量数据同步一次性调度的任务。前提条件已新建工作组，具体操作，请参见新建工作组。已在工作组中...

Query级别诊断结果

查询返回客户端的数据量较大查询消耗的内存资源较大查询生成的Stage个数较多查询读取的数据量较大查询返回客户端的数据量较大问题大量数据返回到客户端会导致慢查询，还会占用部分网络前端资源。说明您可以在查询详情页面的查询...

配置并管理实时同步任务

数据集成附加字段支持的变量字段如下：EXECUTE_TIME：执行时间 UPDATE_TIME：更新时间 DB_NAME_SRC：原始数据库名称 DB_NAME_SRC_TRANSED：转换后数据库名称 DATASOURCE_NAME_SRC：源端数据源名称 DATASOURCE_NAME_DEST：目的端数据源名称 ...

配置并管理实时同步任务

数据集成附加字段支持的变量字段如下：EXECUTE_TIME：执行时间 UPDATE_TIME：更新时间 DB_NAME_SRC：原始数据库名称 DB_NAME_SRC_TRANSED：转换后数据库名称 DATASOURCE_NAME_SRC：源端数据源名称 DATASOURCE_NAME_DEST：目的端数据源名称 ...

配置并管理实时同步任务

您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。实时同步支持的数据源及其配置详情请参见实时同步支持的数据源。说明数据源...

配置并管理实时同步任务

数据集成附加字段支持的变量字段如下：EXECUTE_TIME：执行时间 UPDATE_TIME：更新时间 DB_NAME_SRC：原始数据库名称 DB_NAME_SRC_TRANSED：转换后数据库名称 DATASOURCE_NAME_SRC：源端数据源名称 DATASOURCE_NAME_DEST：目的端数据源名称 ...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

创建MySQL to MaxCompute离线同步周期任务

通过选择已注册的数据源端数据和目标端，实现全量任务自动建表的方式创建离线同步周期任务，本文介绍如何创建MySQL to MaxCompute离线同步周期任务。前提条件已新建工作组“信息中心(xxzx)”，具体操作，请参见新建工作组。已在工作组中...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

配置并管理实时同步任务

您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。实时同步支持的数据源及其配置详情请参见实时同步支持的数据源。说明数据源...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

增量数据同步

通过选择已注册的数据源端数据和目标端，实现增量任务自动建表的方式创建离线同步周期任务，本文介绍如何创建MySQL to MaxCompute离线增量数据同步周期调度的任务。前提条件已新建工作组“信息中心（xxzx）”，具体操作，请参见新建工作...

批量新增离线数据同步任务

已完成源端数据和目标端的物理表同步，具体操作，请参见获取物理表。已添加离线数据同步任务目录，具体操作，请参见添加任务目录。操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，...

大数据利端

新品推荐