大数据处理平台-大数据处理平台文档介绍内容-阿里云

生成测试数据

背景信息 OceanBase 开发者中心（OceanBase Developer Center，ODC）提供模拟数据功能供用户在测试数据库性能或者验证功能等需要大量模拟数据的场景下，能够快速根据表中的字段类型生成数据。注意事项单次模拟数据上限为 1 亿行。拥有检查...

添加处理后数据到数据管理

数据处理后，需要将处理后的数据添加到数据管理中，以便被用于数仓建设、标签管理等数据中台任务。本文以倾斜数据处理后为例，介绍如何添加处理后数据到数据管理。前提条件已新建数据处理任务，具体操作，请参见新建数据处理任务。操作...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

导入概述

Insert Into导入手工测试及临时数据处理时可以使用 Insert Into 方法向StarRocks表中写入数据。其中，INSERT INTO tbl SELECT.;语句是从StarRocks的表中读取数据并导入到另一张表，INSERT INTO tbl VALUES(.);语句是向指定表里插入单条...

扩展程序概述

产品能力 DataWorks作为阿里云一站式大数据开发与治理平台，在各项能力支持上预设了很多拓展点，例如，在标准模式下，简略来看，节点创建后完成代码开发后，需先提交到开发环境中进行验证，完成后再正式发布到生产环境中，后续每天根据调度...

案例演示

单击逻辑节点，添加两个串行数据处理节点。连接节点。设置串行数据处理节点处理方法。数字翻牌器 return[{ value:data[0].number }]通用标题 return[{ value:data[0].text }]预览展示结果。单击画布编辑器右上角的预览，验证设置结果。...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户...，赋能技术团队具备大数据平台建设、架构设计、AI算法建模以及运维保障能力...

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

基于MaxFrame实现大语言模型数据处理

随着人工智能的发展，许多业务和数据分析可以基于大语言模型...部分返回结果如下：后续操作 MaxCompute已与阿里云人工智能平台PAI成功对接，您可基于PAI Desinger进行更多LLM算子的开发和使用，LLM算子详情请参见组件参考：大模型数据处理。

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

物联网设备数据上云存储

业务基于 TSDB 进行数据分析、监控和大数据分析。物联网平台规则引擎物联网设备基于消息 Topic 进行通信，使用规则引擎对 Topic 中的数据进行处理然后转发到 TSDB。只需要在规则引擎中配置一些简单的规则，就可以将设备数据存储到指定的...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

节点类型说明

流式类节点流式节点，运行于流式云计算资源之上，一般支持对多种类型的数据处理。节点类型对应的云计算资源类型说明 Blink Blink 流式节点，运行于Blink云计算资源之上，支持对DataHub、AnalyticDB MySQL、Table Store、MaxCompute、...

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

功能简介

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

外部表概述

随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力，正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

技术面临的挑战与革新

在分布式数据库中，同样也可以采用这种模式，将事务集中在一个节点处理，而这限制了事务处理的扩展能力，系统能处理的事务操作的数据范围受限于单个节点所能访问的数据范围，事务处理能力也受限于单个节点的处理能力。

操作流程

节点模式操作流程节点模式主要适用于计算节点相对独立，整个流程由单个节点组成的这类简单数据处理场景。新建开发节点流程图流程说明操作说明新建开发节点根据待处理的数据类型，选择对应的节点类型，新建开发节点处理该类数据。具体...

01创建解决方案

已创建“全域数据平台”应用，具体操作，请参见新建API归属应用。已创建“银行客户根据证件号码查询”API，具体操作，请参见新建API-向导模式。背景信息根据应用关联对应资源信息，包括服务、物理表、逻辑表、场景、场景节点、单节点、...

云产品集成

大数据开发治理平台 DataWorks DataWorks 是一款为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源，管理 OceanBase 数据库中的数据，通过数据集成...

操作流程

节点模式操作流程节点模式主要适用于计算节点相对独立，整个流程由单个节点组成的这类简单数据处理场景。新建开发节点流程图流程说明操作说明新建开发节点根据待处理的数据类型，选择对应的节点类型，新建开发节点处理该类数据。具体...

引用SQL组件

您可通过创建数据开发（DataStudio）的SQL组件节点使用组件，基于组件快速新建数据处理节点，提高开发效率。本文为您介绍如何引用组件。前提条件已准备所需使用的组件，详情请参见定义SQL组件。已创建SQL组件节点，详情请参见创建并管理...

创建数据流

说明除数据输入和数据输出外，其他任务类型均可作为数据处理节点。在左侧任务类型列表中，拖拽数据过滤节点到画布的空白区域。将鼠标放在数据输入节点上，单击节点右侧出现的空心圆点并拉出连接线，连接至数据过滤节点上。...

产品特点

同时运行上万个仿真场景支持云原生数据处理链路，数据的预处理、拆分、转换等无需再下载到本地支持云原生大规模训练推理加速与自动化标注高效研发标签组合、向量相似、自然语义等多模态，提供高效的场景检索支持云端精确时空对齐的多...

面临的业务挑战

越来越多的企业大数据分析已不再局限于传统的T+1场景，对数据的实时性分析和处理要求提出了更高要求。传统的批处理模式往往有数小时甚至数天的延迟，不能满足T+0的业务需要，用户要求在秒级，甚至毫秒级完成对海量数据分析。系统极复杂大...

概述

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

数据导入概览

使用DataWorks数据集成同步数据到GDB DataWorks 是阿里云上的一站式大数据智能云研发平台，其中数据集成服务支持导出数据到GDB，您也可以使用平台完成数据计算、筛选、转换等处理再同步到GDB。DataWorks的GDB数据源底层由GdbWriter插件提供...

DataWorks On CDP/CDH使用说明

类别描述相关文档 OpenAPI DataWorks开放平台的OpenAPI功能，为您提供开放API能力，通过开放API实现本地服务和DataWorks服务的交互，提升企业大数据处理效率，减少人工操作和运维工作，降低数据风险和企业成本。开放API（OpenAPI）开放...

装饰条

请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如装饰条配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 https://api.test?id=1 。移动将组件...

场景管理器

动作动作说明请求场景管理器重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如场景管理器配置了API数据源为 https://api.test ，传到请求场景管理器动作的数据为 { id:'1'}，则最终请求接口为 ...

概述

数据组织 ZooKeeper的数据组织方式与标准文件系统类似，组织成类似文件树的结构，在ZooKeeper中使用znode（ZooKeeper node）来描述文件，与标准文件系统不同的是，znode并不区分目录或者文件的概念，每个znode都可以存储数据。ZooKeeper...

产品优势

产品功能全功能涵盖数据传输、开发、生产、治理、安全全领域，每个领域深度覆盖大数据全生命周期，轻松帮助企业应对在搭建数仓、搭建数据中台、数字化转型项目中遇到的难题。支持复杂网络环境、常见数据源的数据同步上云以及实时、历史...

JindoCache概述

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

RTMP视频流播放器

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如RTMP视频流播放器配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

装饰条

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如装饰条配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

水体

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如水体配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 https://api.test?id=1 ...

DataWorks On Hologres使用说明

类别描述相关文档 OpenAPI DataWorks开放平台的OpenAPI功能，为您提供开放API能力，通过开放API实现本地服务和DataWorks服务的交互，提升企业大数据处理效率，减少人工操作和运维工作，降低数据风险和企业成本。开放API（OpenAPI）开放...

大数据处理平台

新品推荐