大数据处理 hadoop-大数据处理 hadoop文档介绍内容-阿里云

Kafka实时ETL同步至Hologres

目前提供5种数据处理方式，您可根据需要做顺序编排，在任务运行时会按照编排的数据处理先后顺序执行数据处理，5种数据处理方式包括：数据脱敏、字符串替换、数据过滤、JSON解析和字段编辑与赋值。每完成一个数据处理节点配置，可以单击右...

应用场景

批处理意味着每一次处理的数据量很大，而且有很多张大表要做关联，经常要做一些比较复杂的查询，并且更新量也比较大，使得传统的集中式数据库，出现了单点瓶颈，垂直扩容成本非常高，几乎不可接受。OceanBase 数据库的 SQL 引擎在经过了近 ...

生成测试数据

背景信息 OceanBase 开发者中心（OceanBase Developer Center，ODC）提供模拟数据功能供用户在测试数据库性能或者验证功能等需要大量模拟数据的场景下，能够快速根据表中的字段类型生成数据。注意事项单次模拟数据上限为 1 亿行。拥有检查...

什么是EMR on ECS

EMR on ECS将EMR的大数据处理功能与ECS的容器化部署优势相结合，使得您可以更加灵活地配置和管理EMR集群，从而更好地适应复杂的数据处理和分析场景。通过EMR on ECS，您可以快速创建、管理和运维EMR集群，同时也能够更加高效地使用计算和...

生态集成

云原生数据仓库AnalyticDB PostgreSQL版具备完善和开放的生态系统，支持无缝对接业界以及阿里云生态的数据管理工具，BI报表可视化工具，ETL工具，数据迁移工具，同时可以与业界流行的流式处理系统，日志类系统，大数据类系统，传统数仓及...

导入概述

Insert Into导入手工测试及临时数据处理时可以使用 Insert Into 方法向StarRocks表中写入数据。其中，INSERT INTO tbl SELECT.;语句是从StarRocks的表中读取数据并导入到另一张表，INSERT INTO tbl VALUES(.);语句是向指定表里插入单条...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

最佳实践概览

通过DataWorks将MaxCompute数据同步至Elasticsearch 通过阿里云Logstash将MaxCompute数据同步至Elasticsearch 通过实时计算处理数据并同步到Elasticsearch 通过DataWorks将Hadoop数据同步至Elasticsearch 存储产品迁移从Solr集群迁移文档...

Spark计算引擎

Apache Spark是一个通用的开源的分布式处理系统，通常用于大数据工作负载。Spark既支持使用SQL，又支持编写多种语言的DataFrame代码，兼具易用性和灵活性。Spark通用化的引擎能力可以同时提供SQL、批处理、流处理、机器学习和图计算的能力...

使用E-Mapreduce访问

提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。E-MapReduce数据迁移开通文件引擎服务，详情请参见开通指南。准备工作。开通并创建E-MapRedece集群，详情请参见创建...

外部表概述

随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力，正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

技术面临的挑战与革新

在分布式数据库中，同样也可以采用这种模式，将事务集中在一个节点处理，而这限制了事务处理的扩展能力，系统能处理的事务操作的数据范围受限于单个节点所能访问的数据范围，事务处理能力也受限于单个节点的处理能力。

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群（Hadoop），高效地迁移至数据...由于双跑校验的具体方式会根据您的实际开发环境、业务特性以及数据处理需求有所不同，因此强烈建议您在执行这一关键步骤时，结合自身业务场景和需求特点，灵活选择...

EMR Hive数据整库离线同步至MaxCompute

背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成...

EMR Hive数据整库离线同步至MaxCompute

背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成...

Tez

Tez是Apache构建在Hadoop之上的支持分布式DAG（Directed Acyclic Graph）的计算框架，支持通过复杂的DAG描述并处理大数据任务。背景信息 Tez主要使用在Apache Hive中，作为Hive的一种运行时引擎，可以优化Hive SQL的查询引擎。与Hive On MR...

什么是云原生数据湖分析

云原生数据湖分析（简称DLA）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库（RDS\PolarDB\NoSQL）与消息实时归档建仓，提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统...

在文件存储 HDFS 版上使用Apache Tez

仅包含Tez依赖 tez-dist/target/tez-0.9.2.tar.gz/完整压缩包，包含Tez和Hadoop依赖背景信息 Apache Tez是构建在Hadoop YARN之上支持分布式DAG（Directed Acyclic Graph）的计算框架，支持通过复杂的DAG描述并处理大数据任务。Tez主要使用...

创建数据流

说明除数据输入和数据输出外，其他任务类型均可作为数据处理节点。在左侧任务类型列表中，拖拽数据过滤节点到画布的空白区域。将鼠标放在数据输入节点上，单击节点右侧出现的空心圆点并拉出连接线，连接至数据过滤节点上。...

路况层

动作动作说明请求地理数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如路况层配置了API数据源为 http://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

路况层

动作动作说明请求地理数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如路况层配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。...

装饰条

请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如装饰条配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 https://api.test?id=1 。移动将组件...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

场景管理器

动作动作说明请求场景管理器重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如场景管理器配置了API数据源为 https://api.test ，传到请求场景管理器动作的数据为 { id:'1'}，则最终请求接口为 ...

管理节点组

例如，内存型实例节点（vCore:vMem=1 vCPU:8 GiB）用于大数据离线处理，计算型实例（vCore:vMem=1 vCPU:2 GiB）用于模型训练。Hadoop、Data Science和EMR Studio集群节点组的管理操作，请参见管理节点组（Hadoop、Data Science和EMR ...

萤石云播放器

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如萤石云播放器配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

水体

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如水体配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 https://api.test?id=1 ...

装饰条

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如装饰条配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

管理节点组（Hadoop、Data science和EMR Studio集群）

例如，内存型实例节点（vCore:vMem=1 vCPU:8 GiB）用于大数据离线处理，计算型实例（vCore:vMem=1 vCPU:2 GiB）用于模型训练。前提条件已在EMR控制台创建Hadoop、Data science或EMR studio集群，详情请参见创建集群。使用限制支持新增...

iframe

本文介绍iframe全量选择时各配置项的含义。图表样式 iframe支持自定义配置iframe链接内容以及页面关闭按钮的样式配置，适用于将网页嵌入可视化应用中进行显示。...再根据需要在蓝图编辑器配置页面的数据处理节点中更改对应样式的字段值。

离线集成概述

解决企业复杂大数据批处理难题，支持企业精细化运营、数据营销、智能推荐等大数据业务场景。离线集成功能底层基于Spark开发，支持提升Hadoop平台运行速度的应用场景。说明如果您在使用该功能的过程中有任何疑问或问题，请使用钉钉搜索钉钉...

飞线层

动作动作说明请求飞线重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。飞线层配置了API数据源为 https://api.test ，传到请求飞线动作的数据为 { id:'1'}，则最终请求接口为 https://api.test?id=1 。导入飞线...

iframe

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如iframe配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

开关

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如开关配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 https://api.test?id=1 ...

萤石云播放器

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如萤石云播放器配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

概述

高性能版（推荐使用）：基于基础版Spark全密态引擎提供的数据加密能力，高性能版的Spark全密态计算引擎结合Gluten和Velox，提供了向量化计算的能力，在保证数据传输与存储过程安全的同时，提升了数据处理效率。基础版和高性能版Spark全密态...

术语表

M MapReduce MapReduce是处理数据的一种编程模型，通常用于大规模数据集的并行运算。您可以使用MapReduce提供的接口（Java API）编写MapReduce程序，来处理MaxCompute中的数据。编程思想是将数据的处理方式分为Map（映射）和Reduce（规约）...

超图REST栅格瓦片

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如超图REST栅格瓦片配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

大数据处理 hadoop

新品推荐