大数据计算平台-大数据计算平台文档介绍内容-阿里云

基于混合负载的查询优化

Batch模式：采用批计算架构，通过DAG进行任务切分，分批调度，满足有限资源下大数据量计算，支持计算数据落盘，适用于计算量大，吞吐高的复杂分析场景。资源池混合负载隔离 AnalyticDB MySQL版弹性版本支持资源池多租户隔离。通过一个实例...

DataWorks模块使用说明

使用流程与主要子模块 DataWorks为您提供从端到端的一站式数据开发治理平台，数据处理流程主要包括以下几个阶段。各个阶段DataWorks的主要子模块如下。数据集成子模块：数据集成功能说明：数据集成是稳定高效、弹性伸缩的数据同步平台，...

通过函数计算节点发送邮件

本文为您介绍如何在DataWorks中通过函数计算节点调用函数计算服务，并实现发送邮件功能。背景介绍 DataWorks当前已经支持通过函数计算节点调用函数计算服务，在函数计算服务中可以自定义各种功能，最终可通过DataWorks进行调用。前提条件 ...

客户案例

解决方案玩物得志基于阿里云DataWorks+MaxCompute框架搭建大数据平台，使用其核心存储、计算等组件、上层可视化及业务查询能力，在开源方案的基础上进行了二次开发。解决方案架构如下。详细案例信息，请参见玩物得志案例。互联网社交案例...

外部表概述

随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力，正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

自动化治理-物化视图

当您在面对大数据计算任务频繁且存在大量相似子查询场景时，DataWorks支持自动化治理，智能推荐物化视图，为您提供了一种智能化、自动化的解决方案。当您启用此功能时，DataWorks能够自动识别和分类MaxCompute中的相似子查询，并生成物化...

整体架构

技术架构 AnalyticDB MySQL版采用云原生架构，计算存储分离、冷热数据分离，支持高吞吐实时写入和数据强一致，兼顾高并发查询和大吞吐批处理的混合负载。AnalyticDB MySQL 数仓版（3.0）主要用来处理高性能在线分析场景的数据。随着数据...

实时计算场景优化

调整DataNode Xceiver连接数背景：通常实时计算框架会打开较多的HDFS文件写入流（Stream），方便不断地向HDFS写入新的数据。HDFS允许同时打开的文件数量是有限的，受限于DataNode参数 dfs.datanode.max.transfer.threads。建议：您可以在...

在DataWorks中通过函数计算节点实现动态为PDF添加水印

本文为您介绍如何在DataWorks中通过函数计算节点调用函数计算服务，实现周期性对OSS中的增量PDF文件添加水印。背景介绍 DataWorks当前已经支持通过函数计算节点调用函数计算服务，在函数计算服务中可以自定义各种功能，最终可通过DataWorks...

基于MaxCompute进行大数据BI分析

背景信息 MaxCompute：用于进行大规模数据计算，详情请参见什么是MaxCompute。AnalyticDB MySQL：用于进行海量数据实时高并发在线分析，详情请参见云原生数据仓库AnalyticDB MySQL版。DataWorks：可实现ETL功能，对复杂数据集进行采集、...

2023年功能发布记录

自建Apache RocketMQ触发器 DataWorks大数据开发治理平台新增 DataWorks为您提供函数计算节点，您可通过该节点周期性调度处理事件函数，并完成与其它类型节点的集成和联合调度。DataWorks大数据开发治理平台开服地域新增新增服务地域...

概述

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。

安装IntelliJ IDEA

MaxCompute Studio是运行在IntelliJ IDEA上的插件，本文将为您介绍如何安装MaxCompute Studio的基础平台IntelliJ IDEA。前提条件 IntelliJ IDEA支持在Windows、macOS或者Linux操作系统上安装，硬件及系统环境要求请参见 Requirements for ...

什么是DataTrust

Party Computation，MPC）、联邦学习（Federated Learning，FL）、差分隐私（Differential Privacy，DP）等隐私增强计算（Privacy Enhancing Technique）技术打造的隐私增强计算平台，在保障数据隐私及安全前提下完成多方数据隐私求交、...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

什么是阿里云实时计算Flink版

阿里云实时计算Flink版是一套基于Apache Flink构建的⼀站式实时大数据分析平台，提供端到端亚秒级实时数据分析能力，并通过标准SQL降低业务开发门槛，助力企业向实时化、智能化大数据计算升级转型。产品概述阿里云实时计算Flink版是一种全...

快速体验

大数据存储与计算：云原生大数据计算服务 MaxCompute（必选）、实时数仓Hologres（可选）、开源大数据平台E-MapReduce（可选），您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度：大数据开发治理平台 DataWorks数据...

项目概述

在蚂蚁隐私计算服务平台的数据应用中，以项目的形式对成员、权限、节点和数据等要素进行隔离。根据不同的应用类别，项目分为 FL、MPC、SCQL 和 PSI 四种类型。在进入项目完成数据的开发和应用前，您需要先创建项目，并完成项目的配置。在...

支持的云服务

MaxCompute和DataWorks提供完善的ETL、数据分析、数据地图、数据治理和数据仓库管理能力，并支持SQL、MapReduce、Graph等多种经典的分布式计算模型，能够更快速地解决用户海量数据计算问题，有效降低企业成本，保障数据安全。更多DataWorks...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

实时计算任务运行与管理

进入实时计算任务页面登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>运维中心，在下拉框中选择对应工作空间后单击进入运维中心。在左侧导航栏，单击实时任务运维>实时计算任务，进入实时计算任务页面。查看实时计算任务列表 ...

计算费用（按量付费）

当您购买按量付费规格后，MaxCompute会对SQL、MapReduce、Lightning（交互式分析）、Spark、Mars（数据科学）和MCQA（查询加速SQL）计算类型按量付费。本文为您介绍不同计算类型下的计费规则。背景信息 MaxCompute是以作业的执行情况作为...

购买指引

其他产品计费：大数据引擎的计算与存储等费用不包含在DataWorks的费用中，例如，您还开通使用了 MaxCompute、Hologres、E-MapReduce 等计算引擎或存储产品，这类产品的费用需参考对应产品的计费逻辑。进入 DataWorks售卖页即可购买所需...

计费常见问题

SQL作业的费用计算方式为输入数据量×复杂度×单价，因此在复杂度和单价不变情况下，输入数据量越大费用越高。MaxCompute作业跑失败了会收费吗？MaxCompute有两种计费模式：按量计费：如果作业是按照按量计费进行运行的，当运行失败后，...

实时数据集成（Flink版）

背景信息阿里云实时计算Flink版是一套基于Apache Flink构建的⼀站式实时大数据分析平台，提供端到端亚秒级实时数据分析能力，并通过标准SQL降低业务开发门槛，助力企业向实时化、智能化大数据计算升级转型。详细内容，请参见阿里云实时...

Kyuubi计算引擎管理

本文为您介绍Kyuubi支持的引擎及共享级别，并通过示例为您介绍如何启动计算引擎和向计算引擎提交任务。支持引擎 EMR集群安装Kyuubi时会依赖安装YARN和Spark3引擎。EMR Kyuubi支持Spark3 on YARN部署（暂未支持Flink、Trino以及Spark2引擎）...

Kyuubi概述

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

云计算资源类型

云计算资源是数据资源平台中数据标准字段使用的基础，通过了解数据标准支持的云计算资源类型，并在系统设置模块添加数据标准需要使用的云计算资源类型对应资源，以备在物理化质量校验函数和物理化数据字典时使用。本文介绍数据标准设计中...

关于我们

国家标准《个人信息去标识化效果分级评估规范》国家标准《信息安全技术多方数据融合计算安全指南》行业标准《基于安全多方计算的数据计算平台技术要求与测试方法》行业标准《基于可信执行环境的数据计算平台技术要求与测试方法》行业标准...

云计算资源类型

云计算资源是数据资源平台中数据建模使用的基础，通过了解数据建模支持的云计算资源类型，并在系统设置模块添加数据建模需要使用的云计算资源类型对应资源，以备在物理化逻辑表和设置对应资源的质量规则时使用。本文介绍数据建模中支持...

EMR Serverless StarRocks计算CU价格下调

EMR Serverless StarRocks的计算CU将于2024年01月04日降价。降价开始时间 2024年01月04日12时。降价对象计算CU。适用地域所有EMR Serverless StarRocks在售地域均适用本次价格调整。降价说明存量的按量付费集群按照降价后的价格计费，...

云计算资源类型

云计算资源是数据资源平台中通用资源使用的基础，通过了解通用资源支持的云计算资源类型，并在系统设置模块添加通用资源需要使用的云计算资源类型对应资源，以备在新建函数资源、自定义函数并物理化以及新建数据基础库并物理化时使用。...

云计算资源类型

云计算资源是数据资源平台资产管理的基础，了解运营支持的云计算资源类型，以备在系统设置模块添加对应资源。本文介绍运营模块支持的云计算资源类型。表资产支持的云计算资源类型：MaxCompute、DataHub、Hive、RDS MySQL、PostgreSQL、...

客户案例

基于金融云计算平台以及 OceanBase 的海量存储，网商银行拥有处理高并发金融交易、海量大数据和弹性扩容的能力，可以利用互联网和大数据的优势，给更多小微企业提供金融服务。唐家才网商银行 CTO“网商银行选择 OceanBase 三地五中心部署...

受众与核心能力

DataWorks赋予用户仅通过单一平台，即可实现数据传输、数据计算、数据治理、数据分享的各类复杂组合场景的能力。同时，DataWorks持续打造符合企业级数仓、数据中台构建要求的功能模块，为企业业务的数字化转型提供支持。产品受众从事数据...

MaxFrame概述

您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。版本说明当前MaxCompute MaxFrame功能...

E

返回 e 的值。此函数为MaxCompute 2.0扩展函数。命令格式 double e()返回值说明返回DOUBLE类型。使用示例-返回2.718281828459045。select e();相关函数 E函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

PI

返回π的值。此函数为MaxCompute 2.0扩展函数。命令格式 double pi()返回值说明返回DOUBLE类型。使用示例-返回3.141592653589793。select pi();相关函数 PI函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

新建VPC类型的云计算资源

VPC即专有网络VPC（Virtual Private Cloud），您可将VPC中的阿里云资源添加到数据资源平台中使用。本文以AnalyticDB PostgreSQL资源为例，为您介绍如何新建VPC类型的云计算资源。前提条件您已开通并搭建专有网络 VPC，具体操作，请参见 ...

大数据计算平台

新品推荐