大数据的并行计算技术-大数据的并行计算技术文档介绍内容-阿里云

外部表概述

随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力，正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

计算设置概述

计算引擎说明操作文档离线计算引擎 MaxCompute 阿里原生的大数据计算平台，承载海量数据存储与计算能力，高效率与高稳定性。设置Dataphin实例的计算引擎为MaxCompute 实时计算引擎阿里云实时计算Flink 阿里云新一代计算引擎Flink，支持...

Tablestore外部表

本文将进一步为您介绍如何将来自Tablestore（原OTS）的数据纳入MaxCompute上的计算生态，实现多种数据源之间的无缝连接。背景信息表格存储（Tablestore）是构建在阿里云飞天分布式系统之上的NoSQL数据存储服务，提供海量结构化数据的存储...

RDS搭配大数据计算服务实现大规模数据计算

开放数据处理服务又称为大数据计算服务（MaxCompute，原名ODPS），可服务于批量结构化数据的存储和计算，提供海量数据仓库解决方案以及针对大数据的分析建模服务。通过数据集成服务，可将RDS数据导入MaxCompute，实现大规模的数据计算，...

PyODPS概述

如果后续操作的都是本地的DataFrame，则丧失了MaxCompute 的大规模并行计算能力，且数据量稍大时，单机内存就很容易产生OOM。提交到MaxCompute分布式执行（推荐）推荐您合理利用PyODPS提供的分布式DataFrame功能，将主要的计算提交到...

计费常见问题

SQL作业的费用计算方式为输入数据量×复杂度×单价，因此在复杂度和单价不变情况下，输入数据量越大费用越高。MaxCompute作业跑失败了会收费吗？MaxCompute有两种计费模式：按量计费：如果作业是按照按量计费进行运行的，当运行失败后，...

计量计费

本文为您介绍如何估算MaxCompute SQLML作业的费用。背景信息通常情况下，每个算法组件由多个子任务组成。...查看账单信息 MaxCompute SQLML作业，在账单中体现的是 大数据计算服务MaxCompute+机器学习（PAI）两个产品的费用。

适用场景

按应用类型选择 PolarDB-X 1.0 产品在高并发、分布式事务、复杂SQL优化、并行计算等方面都有比较好的用户沉淀和技术发展，适用于如下场景：对超高并发和大规模数据存储有较高要求的互联网在线事务类业务场景。传统企业级应用因业务发展导致...

什么是DataWorks

DataWorks发展之路阿里巴巴集团内发展历程从2009年产品立项开始，DataWorks与阿里巴巴业务共同发展，结合MaxCompute、Hologres等大数据计算引擎的能力，跨越多个技术阶段，支撑阿里巴巴数据中台与数据治理建设。目前阿里巴巴集团内...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

Kyuubi概述

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

选择付费方式

对周期性高密度计算作业使用包年包月模式，对非周期性的大规模数据处理作业使用按量计费模式。按量计费模式下可以不存储数据，通过读取其它账号下的表获取数据，从而可以节省数据存储费用。不同账号下跨表计算需要通过授权来实现，详细请...

客户案例

张炜宇阿里妈妈基础共享技术开发平台总监“OceanBase 很好的满足了我们广告业务对于存储系统扩展性，并行计算，统计计算，高吞吐，低时延，资源隔离等大数据处理的需求，在报表业务的演进中帮助我们建立了一套业务和平台分离，面向效果...

支持的连接器

MySQL√流模式 SQL和DataStream 是云数据库RDS MySQL版×流模式和批模式 SQL 是 大数据计算服务MaxCompute√流模式和批模式 SQL和DataStream 不支持更新和删除结果表数据，只支持插入数据。数据总线DataHub√流模式和批模式 SQL和...

典型场景

MPP多节点全并行计算，PB级数据秒级响应。基于列存储的高性能大表扫描，极高压缩比。在线高性能查询面对任意维度数据即时探索和数据实时入库更新等挑战，云原生数据仓库AnalyticDB PostgreSQL版具有如下技术优势：高吞吐数据写入及更新...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

基于混合负载的查询优化

Batch模式：采用批计算架构，通过DAG进行任务切分，分批调度，满足有限资源下大数据量计算，支持计算数据落盘，适用于计算量大，吞吐高的复杂分析场景。资源池混合负载隔离 AnalyticDB MySQL版弹性版本支持资源池多租户隔离。通过一个实例...

LLM on DLC-Megatron on DLC最佳实践

常见的大模型训练技术包括：数据并行技术、模型并行技术（包括张量并行技术和流水并行技术）、优化器状态并行技术、序列并行技术、激活重算技术等：数据并行技术（Data Parallel）：在多个GPU组上有相同的模型参数副本，但读取不同的样本。...

基本概念

实例实例是指用户创建的针对多个数据进行同一类型AI计算所创建的一个计算任务。设备设备指IPC、NVR等能产生视频数据的相关设备，该设备同时符合GB/T28181-2016、GA/T1400协议，或者集成阿里云VCS SDK。设备接入设备接入是指用户需要计算...

高性能能力

HTAP跨节点并行执行能力 PolarDB PostgreSQL版（兼容Oracle）支持分析型查询，通过分布式并行计算技术，多个RO点并行执行SQL查询，充分发挥共享存储层的高IO吞吐能力，以及RO点的CPU和memory资源。能在一份TP数据上实时执行分析型查询，而...

产品优势

本文介绍云原生关系型数据库 PolarDB PostgreSQL版（兼容Oracle）的产品优势，帮助您更好地了解 PolarDB PostgreSQL版（兼容Oracle）。简单易用 PolarDB PostgreSQL版（兼容Oracle）高度兼容Oracle语法，代码/应用无需修改或只需少量修改。...

创建数据板块

数据板块是逻辑空间的重要组成部分，是基于业务特征划分的命名空间。在使用规范建模前，您需要完成数据板块的创建。本文为您介绍如何新建数据板块。前提条件仅支持智能研发版。若需使用，当前租户还需开通智能研发模块。在开始执行操作前...

创建数据板块

数据板块是逻辑空间的重要组成部分，是基于业务特征划分的命名空间。在使用规范建模前，您需要完成数据板块的创建。本文为您介绍如何新建数据板块。前提条件仅支持智能研发版。若需使用，请升级当前版本。升级版本，请参见升级。在开始...

数据质量评估标准

一致性一致性通常体现在跨度很大的数据仓库中。例如，某公司有很多业务数仓分支，对于同一份数据，在不同的数仓分支中必须保证一致性。从在线业务库加工到数据仓库，再到各个数据应用节点，用户ID必须保持同一种类型，且长度也要保持一致...

函数

自定义函数（UDF）：为MaxCompute提供了高度的灵活性，允许您根据具体业务逻辑进行定制化的数据计算和分析。自定义函数（UDF）可以进一步分为标量值函数（UDF）、自定义聚合函数（UDAF）和自定义表值函数（UDTF）三种类型。您在开发完成UDF...

应用场景

本文将以部门场景和技术领域场景为例，为您介绍实时计算Flink版的大数据是实时化场景。说明更多场景案例请参见阿里云实时计算Flink版产品案例和解决方案汇总。背景信息作为流式计算引擎，Flink可以广泛应用于实时数据处理领域，例如ECS...

调优集群性能

您可以通过一键诊断功能来定位存在问题的查询：Bad SQL检测结果中，高耗时的SQL、数据读取量大的SQL、Stage个数多的SQL、最耗CPU的SQL，都可能导致集群的CPU使用率增高，需要根据自诊断结果或者执行计划进行进一步的分析。异常Pattern...

应用场景

云服务器ECS具有广泛的应用场景，既可以...推荐使用弹性高性能计算E-HPC，弹性高性能计算可以将计算能力积聚，用并行计算方式解决更大规模的科学、工程和商业问题。更多案例更多关于云服务器ECS的应用场景，请参见云服务器ECS客户案例。

名词解释

本章主要介绍物联网边缘计算中相关的产品名词。名词解释 Link IoT Edge 物联网边缘计算产品（Link IoT Edge，简称LE），即阿里云物联网平台（IoT）中的边缘计算产品。提供安全可靠的数据计算能力，可供本地处理设备数据，减少上传云端的...

基本概念

本文列出了蚂蚁隐私计算服务平台涉及的基本概念，以便于您更好地理解产品。安全配置安全配置全称为授权安全配置，离线样本被授权到多方安全分析项目后，数据所有方在项目中按照安全级别对数据进行分列、分级的配置。数据的安全性越高，对...

应用场景

GPU计算的处理优势在于拥有众多专用的并行计算单元以及超高的显存带宽，让多路大规模数据搬移和快速并行计算成为典型的计算模式，但该模式也导致了每路数据的处理延迟增加。在具有低延迟需求的在线业务场景中，例如语音识别等，在Batch值较...

简介

BatchCompute 是阿里云上的批量计算服务，可以帮助用户进行大规模并行计算。OSS 是阿里云上的对象存储服务，可以存储海量数据。ECS 是阿里云上的云服务器，极易运维和操作,可以方便的制作系统镜像。渲管与这三个云产品的关系如下图 A)制作...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

兼容PostgreSQL 14版本公测结束，正式版上线

并行计算增强 PostgreSQL 14版本增加了许多并行查询功能，PL/pgSQL函数内的 RETURN QUERY 返回结果时支持QUERY的并行计算，REFRESH MATERIALIZED VIEW 命令也可以使用并行查询。并行顺序扫描支持chunk，提高大范围数据扫描的IO吞吐，接近块...

产品介绍

HTAP跨节点并行执行能力 PolarDB支持分析型查询，通过分布式并行计算技术，多个RO点并行执行SQL查询，充分发挥共享存储层的高IO吞吐能力，以及RO点的CPU和memory资源。能在一份TP数据上实时执行分析型查询，而无需再把数据导入到分析平台。...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中，也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute ...

数据传输费用（公网下载）

本文介绍MaxCompute中数据下载计费规则。MaxCompute仅对公网的下载数据进行收费，并按照下载的数据大小按量计费。MaxCompute会在第二天给出您的下载费用账单，您可以进入费用中心查看。下载计费规则如下。计费公式价格说明一次下载...

应用场景

基因数据处理云工作流可以将多个批量计算分布式作业串联或并行编排，可靠地支持执行时间长、并发量大的大规模计算。如基因数据分析中将基因序列对齐，将所有染色体并行做变异分析，最终将各染色体数据聚合产出结果。云工作流根据指定的...

开启GPU加速计算

加速原理数据库中GPU并行加速是指对象级的并行，将单个字段的对象转换为适合并行计算的模型，利用GPU超多核心的能力并行计算。注意事项对于并发数较大的场景，单个GPU设备会存在资源受限的情况，所以建议在会话中关闭GPU加速计算功能。...

大数据的并行计算技术

新品推荐