大数据委员会朱飞达-大数据委员会朱飞达文档介绍内容-阿里云

发展历程

深度参与和推动全球大数据领域标准化建设 MaxCompute代表阿里巴巴计算平台，成为国际TPC（Transaction Processing Performance Council）委员会大数据评测标准BigBench的委员会委员，是中国担任此国际性能标准化测试组织委员的唯一企业。...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

LTS（原BDS）服务介绍

在线离线业务分离通过LTS，将在线业务数据实时同步到HDFS或者OSS等存储，结合Spark、MR等大数据组件进行数据分析，从而不影响在线业务的查询。主备容灾通过LTS在主备集群之间实现实时数据的双向同步，当主集群出现问题，可以切换到备集群...

LTS（原BDS）服务介绍

在线离线业务分离通过LTS，将在线业务数据实时同步到HDFS或者OSS等存储，结合Spark、MR等大数据组件进行数据分析，从而不影响在线业务的查询。主备容灾通过LTS在主备集群之间实现实时数据的双向同步，当主集群出现问题，可以切换到备集群...

概述

TPC-DS由TPC委员会制定发布，用于决策支持系统测试基准，主要用于衡量大数据产品的分析性能。TPC-DS查询共包含99个查询测试语句。更多信息，请参见 TPC-DS测试集。说明本文的TPC-DS的实现基于TPC-DS的基准测试，并不能与已发布的TPC-DS...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

离线同步并发和限流之间的关系

在一些数据同步场景，脏数据的出现会导致任务同步效率下降，以关系数据库写出为例，默认是执行batch批量写出模式，在遇到脏数据时会退化为单条写出模式（以找出batch批次数据具体哪一条是脏数据，保障正常数据正常写出），但单条写出效率会...

数据组织优化

Clustering 当前痛点 Transactional Table 2.0支持分钟级近实时增量数据导入，高流量场景下可能会导致增量小文件数量膨胀，从而引发存储访问压力大、成本高，并且大量的小文件还会引发meta更新以及分析执行慢，数据读写IO效率低下等问题，...

PostgreSQL数据源

当PostgreSQL中表名称、字段名称是以数字开头，或者名称中包含大小写英文字母、中划线（-）时需要使用双引号（""）进行转义，不进行转义会导致PostgreSQL插件读取或写入PostgreSQL数据失败。但是在PostgreSQL Reader和Writer插件中，双引号...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

Vertica数据源

Vertica是一款基于列存储的MPP架构的数据库，Vertica数据源为您提供读取和写入Vertica双向通道的功能，本文为您介绍DataWorks的Vertica数据同步的能力支持情况。支持的版本 Vertica Reader通过Vertica数据库驱动访问Vertica，您需要确认...

DM（达梦）数据源

DM（达梦）数据源作为数据中枢，为您提供读取和写入DM数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DM数据同步的能力支持情况。使用限制离线同步支持读取视图表。DM Reader和DM Writer仅支持使用独享数据...

DB2数据源

DB2数据源作为数据中枢，为您提供读取和写入DB2数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DB2数据同步的能力支持情况。支持的版本 DB2 Reader和DB2 Writer使用的DB2驱动版本为 IBM Data Server Driver ...

应用场景

库表级恢复全量数据备份是最普遍的备份解决方案，发生数据误删除时，传统方案需要将整个实例数据全部恢复，然后从中找出误删除表，其他数据都丢弃掉，大部分时间花费在无效工作上，这种方案会大大延长故障恢复时间。为了降低数据库故障...

SQL Server数据源

SQL Server数据源为您提供读取和写入SQL Server双向通道的功能，本文为您介绍DataWorks的SQL Server数据同步的能力支持情况。支持的版本 SQL Server Reader使用驱动版本是com.microsoft.sqlserver sqljdbc4 4.0，驱动能力具体请参见官网...

离线同步任务调优

本文为您介绍影响数据同步速度的因素、如何通过调整同步任务的并发配置来实现同步速度最大化、作业的限速选项，以及数据同步过慢的场景。文档概述同步速度受同步任务本身配置、数据库、网络等多方面影响，详情请参见：数据同步速度的影响...

Oracle数据源

由于主备数据同步存在一定的时间差，在网络延迟等特定情况下，会导致备库同步恢复的数据与主库有较大差别，从备库同步的数据不是一份当前时间的完整镜像。一致性约束 Oracle在数据存储划分中属于RDBMS系统，对外可以提供强一致性数据查询...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

索引优化

避免对频繁更新的列建索引：对于数据频繁更新的列，如果数据频繁更新，索引也会频繁更新，这会极大的降低数据更新的性能。只对高选择率的列建B-Tree索引：索引选择率是构建索引时选择什么索引类型的重要指标，B-Tree索引只推荐使用在选择率...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

查询结果不符合预期的常见原因

Lindorm宽表经常会被应用在大数据链路中，如果写入链路出现问题，则可能导致写入延迟或无法正常写入数据，此时进行数据查询，该行数据还未写入，因此会产生无法查询到数据的情况。如果您在使用中遇到数据写入一段时间后才能查到的情况，...

从RDS MySQL迁移至自建Kafka

Kafka是应用较为广泛的分布式、高吞吐量、高可扩展性消息队列服务，普遍用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域，是大数据生态中不可或缺的产品之一。通过数据传输服务DTS（Data Transmission Service），...

通过自定义模型识别

说明如果模型训练的评估结果准确率达不到100%，则投入上线使用识别的数据可能会有较大误差。建议您增加样本数据，重新训练模型，直至准确率达到100%后再投入上线使用。单击确定创建，完成当前规则模型的创建。后续步骤成功创建规则模型...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

数据归档概述

当线上数据库中的历史数据（访问率很低的数据）越来越多，占用的存储越来越大，以至于会影响数据库的查询性能与业务运转，此时您可以使用数据管理DMS 的数据归档功能，周期性地将指定表的数据归档至其他数据库或存储服务中。同时，该功能...

点热力层（v3.x版本）

当组件数据源发生变化时，数据响应结果会对应展示最新的数据。如果系统反应延迟，您可以单击右侧的图标，查看数据响应结果，也可以单击右侧的图标，获取组件的最新数据。您也可以单击查看示例，查看当前组件的响应结果示例。禁止加载态 ...

从自建MySQL迁移至PolarDB-X

DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，甚至导致数据...

RDS MySQL同步至AnalyticDB for PostgreSQL

注意事项 DTS在执行全量数据初始化时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

PolarDB MySQL同步至AnalyticDB for PostgreSQL

注意事项 DTS在执行全量数据初始化时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

从RDS MySQL迁移至PolarDB MySQL版

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

从PolarDB MySQL版迁移至RDS MySQL

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

从PolarDB MySQL版迁移至自建MySQL

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

冷数据归档常见问题

归档为CSV格式的数据的数据量可能会比归档为ORC格式的数据的数据量更大。为什么归档后的冷数据及文件在主账号下面的OSS上看不到？PolarDB 的冷数据存储在系统默认的OSS上，不在客户的OSS里，所以客户无法看到。目前只支持在PolarDB控制台上...

从自建MySQL迁移至RDS实例

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

从RDS MySQL迁移至自建MySQL

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

PolarDB MySQL版迁移至云原生数据仓库 AnalyticDB ...

由于全量数据迁移会并发执行INSERT操作，导致目标数据库的表产生碎片，因此全量迁移完成后目标数据库的表存储空间会比源实例的表存储空间大。费用说明迁移类型链路配置费用公网流量费用结构迁移和全量数据迁移不收费。通过公网将数据...

Redis企业版实例间的双向同步

如果数据库业务量较大或服务器规格较低，可能会加重数据库压力，甚至导致数据库服务不可用。建议您在执行数据迁移前谨慎评估，在业务低峰期执行数据同步。请勿在源实例中执行 FLUSHDB 和 FLUSHALL 命令，否则将导致源和目标的数据不一致。...

Redis企业版实例间的双向同步

如果数据库业务量较大或服务器规格较低，可能会加重数据库压力，甚至导致数据库服务不可用。建议您在执行数据迁移前谨慎评估，在业务低峰期执行数据同步。请勿在源实例中执行 FLUSHDB 和 FLUSHALL 命令，否则将导致源和目标的数据不一致。...

从RDS MariaDB迁移至RDS MySQL

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

大数据委员会 朱飞达

新品推荐

大数据委员会朱飞达