umefly数据线-umefly数据线文档介绍内容-阿里云

应用场景

数据分析：实现了实时数据分析生成的数据可以直接用于Serving，从而实现了实时和离线数据的统一融合。实时数据建模：提供了实时数据建模聚合表，以支持实时聚合能力。强大的引擎和优化器保证了数据库在实时数据建模时的高效性。实时更新：...

数据模型架构规范

数据分类架构该数据分类架构在ODS层分为三部分：数据准备区、离线数据和准实时数据区。在进入到CDM层后，由以下几部分组成：公共维度层：基于维度建模理念思想，建立整个企业的一致性维度。明细粒度事实层：以业务过程为建模驱动，基于每...

独享数据集成资源组

在数据集成任务高并发执行且无法错峰运行的情况下，需要专有的计算资源组来保障数据快速、稳定的传输时，建议您选择使用DataWorks的独享数据集成资源组。本文为您概要介绍独享数据集成资源组。功能介绍独享数据集成资源组的功能亮点如下：...

功能更新动态（2022年之前）

计算源数据源支持创建离线数据源和实时数据源，通过数据源将业务数据引入Dataphin平台。数据源业务板块创建业务板块时，支持设定板块管理员，帮助您更好地管理业务板块。业务板块发布管理新增数据集成、实时计算任务的发布管理。管理...

产品概述

既提供高性能离线数据处理，也支持高并发在线分析查询，是各行业有竞争力的PB级实时数据仓库方案。主要功能易适配，免调优支持SQL 2003，部分兼容Oracle语法，支持PL/SQL存储过程。新一代SQL优化器，实现复杂分析语句免调优。PB级数据秒...

什么是数据管理DMS

数据集成：支持常见数据源的实时、离线数据集成，数据集成过程中支持灵活自定义数据的处理逻辑，帮助解决企业数据孤岛的痛点。简单易用：提供覆盖数据全生命周期的数据流转及处理能力。通过提供图形化、向导式的开发模式，智能预警及自主...

名词解释

聚合（Aggregation）：当同一个度量（Metric）的查询有多条时间线产生（多个指标采集设备），那么为了将空间的多维数据展现为成同一条时间线，需要进行合并计算，例如，当选定了某个城市某个城区的污染指数时，通常将各个环境监测点的指标...

入仓解决方案

支持的数据库部署位置有公网IP的自建数据库无公网IP:Port的数据库（通过数据库网关DG接入）通过云企业网CEN接入的自建数据库 ECS上的自建数据库通过专线/VPN网关/智能接入网关接入的自建数据库 ECS上的自建数据库通过专线/VPN网关/智能...

LTS（原BDS）服务介绍

在线离线业务分离通过LTS，将在线业务数据实时同步到HDFS或者OSS等存储，结合Spark、MR等大数据组件进行数据分析，从而不影响在线业务的查询。主备容灾通过LTS在主备集群之间实现实时数据的双向同步，当主集群出现问题，可以切换到备集群...

Kafka增量数据同步至MaxCompute

增量数据开始同步后，如果仍有时间戳小于等于起始时间的记录写入Kafka Topic的话，这些数据可能被漏读，所以当Kafka Topic中数据写入出现延迟或者时间戳乱序时，要注意对离线同步任务造成的数据漏读风险。Kafka侧参数同步结束策略原则上...

Kafka增量数据同步至MaxCompute

增量数据开始同步后，如果仍有时间戳小于等于起始时间的记录写入Kafka Topic的话，这些数据可能被漏读，所以当Kafka Topic中数据写入出现延迟或者时间戳乱序时，要注意对离线同步任务造成的数据漏读风险。Kafka侧参数同步结束策略原则上...

客户案例

DataWorks在多个行业中均有典型的案例落地，帮助多个行业的企业解决数据痛点，挖掘数据价值，本文为您介绍典型行业中已落地的客户案例。新零售行业：大润发云上数据中台建设客户架构如下。客户简介为了快速数字化转型，拥抱新零售，...

数据传输服务（上传）场景与工具

说明对于离线数据的同步，推荐您优先使用数据集成，详情请参见数据集成概述。流式数据通道写入 MaxCompute流式数据通道服务提供了以流式的方式将数据写入MaxCompute的能力，使用与原批量数据通道服务不同的一套全新的API及后端服务。流式...

文档更新动态（2022年之前）

新功能网络连通解决方案 2021年08月24日数据服务：支持数据服务模块的数据查询加速、支持的数据源类型和版本拓展为了满足对数据查询速度有要求的业务场景，Dataphin支持为项目添加加速计算源，且完成Dataphin数据源开发后，您可以手动...

分析外部OSS上的数据

典型应用场景以一个典型数仓架构为例，通过ETL将在线数据（关系数据库或者应用服务日志）导入离线分析平台做计算分析，分析的结果（如数仓模型的数据集市层ADS）再导入关系数据库中，用于对接BI报告、监控和广告计算等应用。该架构有几个...

外部表概述

背景信息 MaxCompute SQL作为分布式数据处理的主要入口，可实现EB级别离线数据的快速处理和存储。随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大...

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

轨迹生成

这一过程在数据库层面表现为频繁的读写聚合操作：先读取数据库中已有的轨迹线数据，再在内存中将新的轨迹点数据和已有的轨迹线聚合为新的轨迹线，最后将新的轨迹线写入至数据库中。这个过程非常消耗IO，如果数据量过大，则可能会影响查询...

数据导入方式介绍

离线数仓加速离线数据运行在MaxCompute等离线数仓上，单天数据增量达到几十GB甚至TB级，需要每天导入数据到 AnalyticDB MySQL 进行数据加速分析。使用方法数据导入方式分为常规导入（默认）和弹性导入。常规导入在计算节点中读取源数据，...

配置资源组与网络连通

在数据同步任务配置前，您需要确保用于执行同步任务的独享数据集成资源组与您将要同步的数据来源端与目的端数据库的网络连通性，您可以根据数据库所在网络环境，选择合适的网络解决方案来实现网络连通。本文为您介绍数据库在不同网络环境中...

2023年

使用do-while节点实现复杂的数据分析 2023-09-20 新增通过跨项目数据访问实现不同地域MaxCompute项目数据迁移新说明本文为您介绍如何通过跨项目数据访问实现不同Region的MaxCompute项目数据迁移，包括两种使用场景：同云账号内不同Region...

审计日志

自定义数据源（支持新建离线数据源和实时数据源）AddCustomDataSource 创建实时自定义数据源。UpdateCustomDataSource 更新实时自定义数据源。DeleteCustomDataSource 删除实时自定义数据源。我的权限 ApplyPrivilege 申请权限。...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接，通过交互式分析Hologres连接DataWorks数据服务开发并生成API，快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

使用DataWorks（离线与实时）

最佳实践数据库整库离线同步至MaxCompute 整库离线同步至MaxCompute OSS数据离线同步至MaxCompute EMR Hive数据整库离线同步至MaxCompute 数据库增量数据离线同步至MaxCompute RDS增量数据同步至MaxCompute Kafka增量数据同步至MaxCompute...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

DBS沙箱功能概览

典型应用场景基于线上数据的开发测试（Dev或Ops）：测试和预发布需要基于线上存量数据验证，但又必须保护线上数据不被污染。DBS沙箱功能可以快速提供历史全量数据副本，同时满足快速测试迭代和数据可靠性保障需求。在线应急容灾：基于DBS...

数据传输作业：数据集成

离线同步离线（批量）的数据通道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（Reader）、数据写入插件（Writer），并基于此框架设计一套简化版的中间数据传输格式，从而实现任意结构化、半结构化数据源之间...

Dataphin支持的数据源

背景信息 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型说明如下：如果您需要在Dataphin中连接某数据源，则需要先在数据源管理中创建该数据源。...

支持的数据库引擎与功能

阿里云数据库 ECS上的自建数据库线下数据库其他云数据库阿里云数据库 ECS上的自建数据库线下数据库其他云数据库数据源类型 MongoDB Redis 支持的版本 4.2、4.0、3.6、3.4、3.2 4.0标准版（主从架构）说明不支持Redis 5.0及以上版本...

Dataphin支持的数据源

背景信息 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型说明如下：如果您需要在Dataphin中连接某数据源，则需要先在数据源管理中创建该数据源。...

EMR Hive数据整库离线同步至MaxCompute

本文以阿里云EMR Hive离线同步写入MaxCompute场景为例，为您介绍如何一次性把EMR Hive整个数据库的数据离线同步至MaxCompute。背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在...

EMR Hive数据整库离线同步至MaxCompute

本文以阿里云EMR Hive离线同步写入MaxCompute场景为例，为您介绍如何一次性把EMR Hive整个数据库的数据离线同步至MaxCompute。背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在...

增量数据同步

通过选择已注册的数据源端数据和目标端，实现增量任务自动建表的方式创建离线同步周期任务，本文介绍如何创建MySQL to MaxCompute离线增量数据同步周期调度的任务。前提条件已新建工作组“信息中心（xxzx）”，具体操作，请参见新建工作...

通过脚本模式配置离线同步任务

当您需要实现更精细化的配置管理时，您可以使用脚本模式配置离线同步任务，通过编写数据同步的JSON脚本并结合DataWorks调度参数使用，将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍脚本模式配置离线同步任务...

通过向导模式配置离线同步任务

背景信息数据集成离线同步，为您提供数据读取（Reader）和写入插件（Writer）实现数据的读取与写入，您可通过向导模式和脚本模式配置离线同步任务，实现源端单表同步至目标端单表、源端分库分表同步至目标端单表两类数据同步场景。...

离线同步写入MongoDB数据

DataWorks的数据集成为您提供MongoDB Writer插件，可从其他数据源中读取数据，并将数据同步至MongoDB。本文以一个具体的示例，为您演示如何通过数据集成将MaxCompute的数据离线同步至MongoDB。前提条件本实践进行操作时，需满足以下条件。...

轨迹线层（v3.x版本）

轨迹线层子组件拥有交互配置，可单击某个线或鼠标移入到线时，触发数据请求，抛出回调值，实现在单击或鼠标移入到线时，动态加载不同线的数据。默认抛出所单击区域的 id 值，具体配置请参见如何配置数字翻牌器组件的回调ID。蓝图编辑器...

调试实时任务

Session集群调试方式：即通过Session集群进行调试，调试的数据为线上的真实数据且为流式数据（即来源表中写入数据时，将直接输出该条数据的计算结果，与真实线上运行任务的结果一致）。该方式下，Session集群提供Flink任务状态、日志和...

使用DataWorks同步数据

背景信息您可以通过DataWorks，将支持的各种数据源数据离线同步至云数据库ClickHouse。离线同步支持的数据源类型，具体请参见支持的数据源与读写插件。前提条件已创建工作空间，引擎服务选择为MaxCompute。如何创建，请参见创建工作...

场景：调度参数在数据集成的典型应用场景

场景四：同步历史数据基于调度参数可根据业务时间将参数自动替换为对应的值这一特性，当您创建任务当天需要将历史数据进行补齐时，您可使用补数据功能，补数据支持补历史一段时间的数据或者未来一段时间的数据，调度参数将在任务调度时...

umefly数据线

新品推荐