2019年阿里云计算大数据计算-2019年阿里云计算大数据计算文档介绍内容-阿里云

UNHEX

返回十六进制字符串所代表的字符串。此函数为MaxCompute 2.0扩展函数。命令格式 binary unhex(string)参数说明 number：必填。为十六进制字符串。...相关函数 UNHEX函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

FILTER

将ARRAY数组 a 中的元素利用 func 进行过滤，返回一个新的ARRAY数组。命令格式 array<T>filter(array<T><a>,function,boolean>)参数说明 a：必填。...相关函数 FILTER函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

函数

自定义函数（UDF）：为MaxCompute提供了高度的灵活性，允许您根据具体业务逻辑进行定制化的数据计算和分析。自定义函数（UDF）可以进一步分为标量值函数（UDF）、自定义聚合函数（UDAF）和自定义表值函数（UDTF）三种类型。您在开发完成UDF...

RAND

返回DOUBLE类型的随机数，返回值区间是0～1。命令格式 double rand(bigint)参数说明 seed：可选。BIGINT类型。随机数种子，决定随机数序列的起始值。...相关函数 RAND函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

UDAF概述

在SQL语句中使用自定义函数时，如果计算的数据量过大并且存在倾斜，会导致作业占用的内存超出默认分配的内存。此时，您可以在Session级别设置 set odps.sql.udf.joiner.jvm.memory=xxxx;属性来解决此问题。更多自定义函数常见问题，请参见...

UDTF概述

在SQL语句中使用自定义函数时，如果计算的数据量过大并且存在倾斜，会导致作业占用的内存超出默认分配的内存。此时，您可以在Session级别设置 set odps.sql.udf.joiner.jvm.memory=xxxx;属性来解决此问题。更多自定义函数常见问题，请参见 ...

2024年

您可以以更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析及科学计算、ML/AL开发等工作。MaxFrame功能介绍和使用说明请参见 MaxFrame概述。您有任何相关问题或需要协助，可以通过您的专...

UDT示例

聚合操作 UDT实现聚合的原理是，先用内建函数 COLLECT_SET 或 COLLECT_LIST 将数据转变成List，之后对该List应用UDT的标量方法计算数据的聚合值。示例如下，计算BigInteger的中位数（由于数据是 java.math.BigInteger 类型的，所以不能直接...

CBRT

1.3715339700741747|1.3715339565548288|0.0|-4.641588833612778|2.1544346900318834|-1.7967017791430528|-1.7967017988380907|-4.481404746557165|+-+-+-+-+-+相关函数 CBRT函数属于数学函数，更多数据计算、数据转换的相关函数请参见 ...

高级应用：实现复杂作业逻辑

参数节点参数节点本质上是一种虚拟节点，不会运行数据计算任务产生数据，主要用于跨节点传参、参数管理的场景。跨节点传参参数管理当数据开发的业务流程中，某个下游节点的任务需要获取多个、多级上游节点的输出参数时，您可以使用参数...

数仓分层

降低数据计算口径和算法不统一风险。公共维度层的表通常也被称为逻辑维度表，维度和维度逻辑表通常一一对应。公共汇总粒度事实层（DWS）：以分析的主题对象作为建模驱动，基于上层的应用和产品的指标需求，构建公共粒度的汇总指标事实表，...

选择付费方式

对周期性高密度计算作业使用包年包月模式，对非周期性的大规模数据处理作业使用按量计费模式。按量计费模式下可以不存储数据，通过读取其它账号下的表获取数据，从而可以节省数据存储费用。不同账号下跨表计算需要通过授权来实现，详细请...

Pandas API支持

MaxFrame提供了兼容Pandas的API接口，您可以用类似于Pandas的方式来操作MaxCompute中的数据，同时利用MaxCompute强大的分布式计算能力，简化您在大数据环境下的数据处理工作，本文为您介绍Pandas API的支持情况。当前MaxFrame支持的API详情...

Paimon外部表

阿里云实时计算Flink版、开源大数据平台E-MapReduce 的常见计算引擎（如Spark、Hive或Trino）都与Paimon有完善的集成。借助Apache Paimon，您可以快速构建自己的数据湖存储服务在存储服务OSS上，并接入MaxCompute实现数据湖的分析。关于...

聚合函数

PERCENTILE_APPROX 计算近似百分位数，适用于大数据量。STDDEV 计算总体标准差。STDDEV_SAMP 计算样本标准差。SUM 计算汇总值。VAR_SAMP 计算指定数值列的样本方差。VARIANCE/VAR_POP 计算指定数值列的方差。WM_CONCAT 用指定的分隔符连接...

基于Flink创建MaxCompute Paimon外表

阿里云实时计算Flink版、开源大数据平台E-MapReduce 的常见计算引擎（如Spark、Hive或Trino）都与Paimon有完善的集成。借助Apache Paimon，您可以快速构建自己的数据湖存储服务在存储服务OSS上，并接入MaxCompute实现数据湖的分析。关于...

2024年

操作审计事件数据迁移至MaxCompute 2024-03-26 新增Pandas API 新说明 MaxFrame提供了兼容Pandas的API接口，您可以用类似于Pandas的方式来操作MaxCompute中的数据，同时利用MaxCompute强大的分布式计算能力，简化您在大数据环境下的数据...

技术架构选型

在数据模型设计之前，您需要首先完成技术...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','language':'zh-CN',};

Logview诊断实践

比如：某些UDF在内存计算、排序的数据量比较大时，会报内存溢出错误。内存不足引起gc频率过高。这时可以尝试调整内存参数，不过此方法只能暂时缓解，具体的优化还是需要从业务上去处理。示例如下：set odps.sql.udf.jvm.memory=-设定UDF ...

长周期指标的计算优化方案

本文为您介绍如何对长周期指标的计算进行优化。实验背景电子商务公司在电商数据仓库和商业分析场景中，经常需要计算最近N天...计算老买家数量时，判断最近一次购买时间是否在30天之内，从而最大程度上的数据关系对去重，减少计算输入数据量。

概述

它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持您以熟悉的开发使用方式提交运行Spark作业，满足更丰富的数据处理分析需求。使用限制 MaxCompute Spark支持如下场景：离线计算场景，例如GraphX、Mllib、RDD、Spark-SQL、...

PyODPS概述

如果后续操作的都是本地的DataFrame，则丧失了MaxCompute 的大规模并行计算能力，且数据量稍大时，单机内存就很容易产生OOM。提交到MaxCompute分布式执行（推荐）推荐您合理利用PyODPS提供的分布式DataFrame功能，将主要的计算提交到...

数据传输费用（公网下载）

承载数据的HTTP Body使用ProtoBuffer编码，因此一般比数据原始容量要小，但是比压缩后存储在MaxCompute上的数据量要大。说明跨云通过专线接入阿里云VPC网络，下载时不收取费用。各地域及不同网络连接方式下的Endpoint信息，详情请参见 ...

数据组织优化

Compaction服务通过消除记录中间历史状态，可节省计算和存储成本，极大加速全量快照查询场景的效率，但也不是频率越高越好，首先执行一次也要读取一遍全量数据进行Merge，极大消耗计算和IO资源，并且生成的新BaseFile也会占据额外的存储...

HASH

使用示例示例1：计算相同数据类型的输入参数的Hash值。命令示例如下。返回66。select hash(0,2,4);示例2：计算不同数据类型的输入参数的Hash值。命令示例如下。返回97。select hash(0,'a');示例3：任一输入参数为空或NULL。命令示例如下。...

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

支持的云服务

MaxCompute和DataWorks提供完善的ETL、数据分析、数据地图、数据治理和数据仓库管理能力，并支持SQL、MapReduce、Graph等多种经典的分布式计算模型，能够更快速地解决用户海量数据计算问题，有效降低企业成本，保障数据安全。更多DataWorks...

镜像管理

功能说明丰富的内置镜像内置如Pandas、NumPy、Scikit-learn、Xgboost等各类科学计算、数据分析类镜像，面向数据分析、数据挖掘等场景需求可直接使用，避免了繁琐的环境准备、打包及上传流程。使用方式高效便捷使用SQL调用UDF函数时，...

内建函数概述

数学函数 MaxCompute SQL提供了如下数学函数供您在开发过程中使用，您可以根据实际需要选择合适的数学函数，进行数据计算、数据转换相关操作。说明取余数计算等更多计算请参见算术运算符。函数功能 ABS 计算绝对值。ACOS 计算反余弦值。...

版本更新记录

Prepared Statement升级为2.0数据类型版本。v3.4.1 缺陷修复修复SDK问题。新功能在查询加速（MCQA）模式下，增加自动回退功能。当用户提交了MCQA不支持的SQL语句（包括Update、Drop、Create、Alter等），可自动回退到普通离线模式执行。v...

2021年

新说明 MaxCompute支持渐进式计算，在处理数据过程中按照一定时间颗粒度自动按时间分区保存处理过程中的中间结果数据，在下一个周期执行时可以重复使用上周期已经计算好的重叠时间部分的数据，从而降低了计算资源消耗、执行调度时间，为...

PERCENTILE_APPROX

array<double>percentile_approx(double[,double],array([,<p2>.])[,])命令说明 percentile_approx 是从编号1开始计算，假设某列有 n 条数据，计算该列的 p 百分位点，则 percentile_approx 会先对该列进行升序排序，假设排序后该列数据为...

计算成本控制

由于MaxCompute的查询响应是分钟级，不适合直接用于前端查询，计算出的结果数据同步到外部存储中保存，对于大部分用户来说，关系型数据库是最优先的选择。轻度计算推荐使用MaxCompute，重度计算（即直接出最终结果。前端展示时，不做任何...

资源规划及规格选型

计算资源资源充足，且无浪费，能够满足所有计算作业的资源需求。不同优先级的作业可以互不干扰，优先保证高优先级的作业获取到足够的计算资源。当某些作业需要处理庞大的数据量且耗费计算资源较多时，可以同时确保其他作业能获取到计算...

Tunnel操作

MaxCompute通过Tunnel实现上传下载数据功能。本文为您介绍如何通过Tunnel上传、下载数据。Tunnel操作详情请参见 Tunnel命令。Tunnel操作常用命令如下。类型功能角色操作入口上传数据将本地文件的数据上传至MaxCompute的表中，以追加...

按量付费闲时版

计费说明类型计费公式价格 SpotSQL作业（指计算配额为os_SpotQuota的普通SQL或查询加速SQL作业）SpotSQL作业当日总费用=计算输入数据量×SQL复杂度×单价计费单价如下：公共云：0.1元/GB 金融云：0.19元/GB 引用外部表的SpotSQL作业...

ACOS

使用示例：表数据示例基于示例数据，计算反余弦值，命令示例如下。select acos(bigint_data)as bigint_new,acos(double_data)as double_new,acos(decimal_data)as decimal_new,acos(string_data)as string_new from mf_math_fun_t;返回...

CORR

计算两列数据的皮尔逊系数（Pearson Correlation Coefficien）。此函数为MaxCompute 2.0扩展函数。命令格式 double corr(,)参数说明 col1、col2：必填。...相关函数 CORR函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

公共规范

在调用可累加类指标计算时，CDM汇总层尽量优先调用已经产出的粗粒度汇总层，以避免大量汇总直接从海量的明细数据层计算。CDM明细层累计快照事实表优先调用CDM事务型事实表，以保持数据的一致性产出。避免应用层过度引用和依赖CDM层明细数据...

兼容性概述

BI分析工具连接MaxCompute，能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源，为您带来更高效的数据分析体验。为了帮助您更清晰地使用BI工具连接访问MaxCompute，本文为您介绍MaxCompute支持连接的BI分析工具，以及工具与...

2019年阿里云计算大数据计算

新品推荐