19阿里云免费大数据计算-19阿里云免费大数据计算文档介绍内容-阿里云

ECS实例说明

本文介绍E-MapReduce（简称EMR）支持的ECS实例类型，以及各实例类型适用的场景。EMR支持的ECS实例类型通用型 vCPU:Memory=1:4。例如，8核32 GiB，使用云盘作为存储...Task计算实例用于补充集群的计算能力，可以使用除大数据型外的所有机型。

开通MaxCompute和DataWorks

角色用途：用于授权MaxCompute访问大数据计算平台其他云产品，如Hologres等。绑定的角色策略：AliyunServiceRolePolicyForMaxComputeIdentityMgmt 权限策略详情：{"Statement":[{"Effect":"Allow","Action":"odps:ActOnBehalfOfAUser",...

应用场景

该场景可实现：在离线一体化支持数据实时增删改、具备在线分析和ETL计算一体化，实现大数据与数据库的融合。通过资源组隔离让在离线计算任务不相互影响，保证业务稳定运行。计算存储资源弹性采用计算存储分离架构，计算资源和存储资源按...

Pandas API支持

MaxFrame提供了兼容Pandas的API接口，您可以用类似于Pandas的方式来操作MaxCompute中的数据，同时利用MaxCompute强大的分布式计算能力，简化您在大数据环境下的数据处理工作，本文为您介绍Pandas API的支持情况。当前MaxFrame支持的API详情...

MaxFrame概述

您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。版本说明当前MaxCompute MaxFrame功能...

CORR

计算两列数据的皮尔逊系数（Pearson Correlation Coefficien）。此函数为MaxCompute 2.0扩展函数。命令格式 double corr(,)参数说明 col1、col2：必填。...相关函数 CORR函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

概述

Spark全密态数据计算引擎常用于解决数据存储与计算安全、敏感数据合规和数据安全共享场景中的数据安全问题。以下是常见的应用场景：数据存储与计算安全场景：在不可信环境中（如第三方平台），Spark全密态计算引擎可以为关键的数据分析...

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

查看账单详情

上图中，产品明细说明如下：大数据计算服务MaxCompute（按量付费）、消费类型为后付费：指当日该账号开通MaxCompute按量付费标准版、开发者版中所有按量付费账单的汇总，包括存储、计算、公网下载的按量计费账单。大数据计算服务...

基础版Spark全密态计算引擎使用示例

本文以云数据库RDS MySQL例，介绍使用基础版Spark全密态计算引擎加密数据，计算和分析密态数据，解密计算结果的完整过程。前提条件 AnalyticDB MySQL 湖仓版（3.0）集群与OSS存储空间位于相同地域。已创建数据库账号。如果您是通过阿里云...

（邀测）MaxCompute Notebook使用说明

支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。本文为您介绍如何使用Notebook功能。版本说明当前MaxCompute Notebook功能处于邀测阶段，每个租户最多可启动3个Notebook实例，每个...

产品系列

适用场景包含构建海量数据实时写入和复杂ETL计算的实时数据仓库、大数据量的复杂查询、历史数据分析、日志分析等业务场景。数仓版（3.0）弹性模式包括两种形态：单机版和集群版。单机版单机版即单节点部署，不具备分布式能力。单机版支持...

创建通用项目

如果您管理诉求较强，数据研发人员较多且能力及分工明确，数据计算存储预算较高，推荐此模式。Basic模式：完成项目的创建后，系统默认生成了Basic项目（开发和生产一体的项目）。Basic项目的数据生产过程稳定且便捷。如果您关注数据研发...

创建通用项目

如果您管理诉求较强，数据研发人员较多且能力及分工明确，数据计算存储预算较高，推荐此模式。Basic模式：完成项目的创建后，系统默认生成了Basic项目（开发和生产一体的项目）。Basic项目的数据生产过程稳定且便捷。如果您关注数据研发...

Paimon外部表

阿里云实时计算Flink版、开源大数据平台E-MapReduce 的常见计算引擎（如Spark、Hive或Trino）都与Paimon有完善的集成。借助Apache Paimon，您可以快速构建自己的数据湖存储服务在存储服务OSS上，并接入MaxCompute实现数据湖的分析。关于...

云产品集成

常见云产品如下：大数据开发治理平台 DataWorks 实时计算 Flink 版数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现前提条件已获取 OceanBase 数据库的基本连接信息，详细步骤请参见获取连接参数。大数据开发治理平台 ...

计量计费

本文为您介绍如何估算MaxCompute SQLML作业的费用。背景信息通常情况下，每个算法组件由多个子任务组成。...查看账单信息 MaxCompute SQLML作业，在账单中体现的是 大数据计算服务MaxCompute+机器学习（PAI）两个产品的费用。

流式ETL

数据传输服务DTS提供的流式数据ETL（Extract Transform Load）功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务，并结合DTS的高效流数据复制能力，可以实现流式数据的抽取、数据转换和加工、数据...

数据传输费用（公网下载）

本文介绍MaxCompute中数据下载计费规则。MaxCompute仅对公网的下载数据进行收费，并按照下载的数据大小按量计费。MaxCompute会在第二天给出您的下载费用账单，您可以进入费用中心查看。下载计费规则如下。计费公式价格说明一次下载...

技术架构选型

在数据模型设计之前，您需要首先完成技术...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','language':'zh-CN',};

账单数据订阅及查询分析

DataWorks及MaxCompute：DataWorks基于MaxCompute等大数据引擎，支持您在线进行SQL分析、业务洞察、编辑和分享数据，以及将查询结果保存为可视化图表卡片，快速搭建可视化数据报告。订阅账单数据后，用户中心会将相关账单数据同步至指定...

告警事件

告警事件集中为您展示离线计算、实时计算、基线监控、数据质量模块的告警事件。本文为您介绍如何查看并处理告警事件。查看告警事件在Dataphin首页，单击页面右上角的图标，进入告警中心页面。在告警事件页面，单击离线计算、实时...

功能概览

VCS提供从视频采集、存储、到多视觉算法融合计算、数据分析的全过程，向企业、开发商和个人提供能够快速构建基于实时视频数据、图片数据等进行智能分析应用的服务。VCS功能如下接入服务支持仅国标GB/T28181-2016版协议的设备（包含NVR、...

概述

库仓一站式（Zero-ETL）传统数据仓库，会通过数据ETL方式同步数据，采用MPP/BSP等并行计算架构可以很好解决OLAP复杂查询，但面相高并发的数据在线查询（Serving场景）会有明显的资源并发瓶颈，会通过数据回流到OLTP数据库提供在线查询。...

RDS外部表

使用RDS数据源创建MaxCompute的外部表并加载数据使用RDS数据源创建MaxCompute外部表的步骤如下：登录RDS数据库，执行建表语句并插入数据。操作详情请参见通过DMS登录RDS数据库。建表示例如下：CREATE TABLE `rds_mc_external`(`id` int...

什么是ETL

数据传输服务DTS提供的流式数据ETL（Extract Transform Load）功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务，并结合DTS的高效流数据复制能力，可以实现流式数据的抽取、数据转换和加工、数据...

2024年

操作审计事件数据迁移至MaxCompute 2024-03-26 新增Pandas API 新说明 MaxFrame提供了兼容Pandas的API接口，您可以用类似于Pandas的方式来操作MaxCompute中的数据，同时利用MaxCompute强大的分布式计算能力，简化您在大数据环境下的数据...

自定义函数（邀测中）

AnalyticDB for MySQL 未开启压缩，将数据直接传输至函数计算服务，函数计算服务经过计算后，将计算结果使用GZIP格式压缩后返回给 AnalyticDB for MySQL，导致 AnalyticDB for MySQL 无法解析数据。调用 REMOTE_CALL 函数时，出现 parse ...

什么是物联网边缘计算

提供的路由路径如下：设备至IoT Hub 设备至函数计算设备至流数据分析函数计算至函数计算函数计算至IoT Hub 流数据分析至IoT Hub 流数据分析至函数计算 IoT Hub至函数计算断网续传边缘计算节点在断网或弱网情况下提供数据恢复能力。...

2023年

2023-06 功能名称功能描述发布时间发布地域相关文档新增JSON数据类型新增JSON数据类型，MaxCompute支持写入JSON数据类型时，自动优化存储，提高JSON数据计算分析性能。2023-06-27 全部地域 MaxCompute JSON类型使用指南（试用Beta...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

挂载NAS

1.背景绝大部分计算模型下，客户数据直接存储于云端 NAS 里。为了方便客户读写云端计算数据，批量计算根据用户提供的挂载信息，自动将 NAS 的挂载点挂载到本地目录。完成 NAS 挂载后，对挂载目录里数据的读写行为将和读写本地数据完全相同...

计费项与计费方式概述

数据传输独享资源费用（包年包月）MaxCompute为所有用户提供免费的公共数据传输服务资源组，您也可以购买独享数据传输服务资源组，以独享数据传输服务，可使用更多数据传输并发数，保障资源的独享性的同时提高了输出传输的稳定性。数据...

产品架构

共享分布式存储多个计算节点共享一份数据，而不是每个计算节点都存储一份数据，极大降低了用户的存储成本。基于全新打造的分布式块存储（Distributed Storage）和文件系统（Distributed Filesystem），存储容量可以在线平滑扩展，不会受到...

产品架构

共享分布式存储多个计算节点共享一份数据，而不是每个计算节点都存储一份数据，极大降低了用户的存储成本。基于全新打造的分布式块存储（Distributed Storage）和文件系统（Distributed Filesystem），存储容量可以在线平滑扩展，不会受到...

应用场景

随着大数据时代的到来，图计算在处理海量关系数据上的优势也越来越明显，在商品推荐、社交网络、金融风控、网络安全等场景上应用也日趋广泛。个性化推荐图计算引擎在处理海量关系数据上具备天然优势，能够提高实时推荐的效率和准确性。以...

EMR+DLF数据湖解决方案

通过EMR+DLF数据湖方案，可以为企业提供数据湖内的统一的元数据管理，统一的权限管理，支持数据湖的多种管理如数据生命周期，湖格式自动优化，存储分析等。同时支持多源数据入湖以及一站式数据探索的能力。本文为您介绍EMR+DLF数据湖方案...

UDT示例

聚合操作 UDT实现聚合的原理是，先用内建函数 COLLECT_SET 或 COLLECT_LIST 将数据转变成List，之后对该List应用UDT的标量方法计算数据的聚合值。示例如下，计算BigInteger的中位数（由于数据是 java.math.BigInteger 类型的，所以不能直接...

Tunnel操作

MaxCompute通过Tunnel实现上传下载数据功能。本文为您介绍如何通过Tunnel上传、下载数据。Tunnel操作详情请参见 Tunnel命令。Tunnel操作常用命令如下。类型功能角色操作入口上传数据将本地文件的数据上传至MaxCompute的表中，以追加...

什么是PolarDB PostgreSQL企业版

PolarDB 采用存储和计算分离的架构，所有计算节点共享一份数据，提供分钟级的配置升降级、秒级的故障恢复、全局数据一致性和免费的数据备份容灾服务。PolarDB 既融合了商业数据库稳定可靠、高性能、可扩展的特征，又具有开源云数据库简单...

19阿里云免费大数据计算

新品推荐