大数据中计算-大数据中计算文档介绍内容-阿里云

RDS搭配大数据计算服务实现大规模数据计算

RDS搭配<em>大数据计算</em>服务实现<em>大</em>规模<em>数据计算</em>

本文介绍RDS MySQL如何结合大数据计算服务MaxCompute使用。开放数据处理服务又称为大数据计算服务（MaxCompute，原名ODPS），可服务于批量结构化数据的存储和计算，提供海量数据仓库解决方案以及针对大数据的分析建模服务。通过数据集成 ...

大数据计算服务MaxCompute

本文为您介绍大数据计算服务MaxCompute连接器的语法结构、WITH参数和使用示例等。背景信息 大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的EB级数据仓库解决方案，致力于批量结构化数据的存储和计算，提供海量数据仓库的解决...

大数据计算服务MaxCompute的审计事件

大数据计算服务MaxCompute已与操作审计服务集成，您可以在操作审计中查询用户操作MaxCompute产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中，满足实时审计、问题回溯分析等需求。操作审计...

将Prometheus数据投递至大数据计算服务MaxCompute

当您需要将某个Prometheus实例的数据导出，进行自定义业务处理时，可以使用Prometheus数据投递功能，将Prometheus实例数据投递至大数据计算服务MaxCompute处理。MaxCompute能帮助您结合其他的数据源执行大数据计算服务，加工后用于报表分析...

将Prometheus数据投递至大数据计算服务MaxCompute

当您需要将某个Prometheus实例的数据导出，进行自定义业务处理时，可以使用Prometheus数据投递功能，将Prometheus实例数据投递至大数据计算服务MaxCompute处理。MaxCompute能帮助您结合其他的数据源执行大数据计算服务，加工后用于报表分析...

云原生大数据计算服务

云原生大数据计算服务 MaxCompute

大数据实时计算性能调优服务

从客情来看，实时计算性能调优需求迫切，比如国家电网用采信息数据量大，及时性高，业务逻辑复杂，急切需要搭建实时数仓，但缺少实时计算的落地经验，急切需要实时计算服务人员协助客户搭建实时任务，完善实时数仓。从客户价值来看，从实际...

SQL其他常见问题

由于复杂结构的超大字段在数据开发和分析中会严重影响计算性能，因此建议根据数据仓库建设规范来设计您的数据架构，避免出现超大字段：具有复杂结构的原始数据，作为ODS层，最好以压缩的方式归档。定时（例如每天）对ODS层的增量数据做数据...

REGEXP_COUNT

当您在处理大量文本数据时，您可能需要统计特定词汇或短语出现的次数，MaxCompute支持使用REGEXP_COUNT函数，计算指定字符在字符串中出现的次数。本文为您介绍REGEXP_COUNT函数的命令格式和使用示例。命令格式计算 source 中从 start_...

离线数据加工卡点校验

本文为您介绍离线业务系统的数据在生成过程中进行的卡点校验。代码提交卡点校验代码提交卡点校验主要包括您在提交代码时，手动或自动进行SQL扫描，检查您的SQL逻辑。校验规则分类如下：代码规范类规则。例如，表命名规范、生命周期设置及...

创建表

数据类型从示例数据中识别表列字段的数据类型信息如下：age：BIGINT job：STRING marital：STRING education：STRING credit：STRING housing：STRING loan：STRING contact：STRING month：STRING day_of_week：STRING duration：STRING ...

向量计算（Proxima CE）概述

本文为您介绍在MaxCompute中如何使用向量计算功能。背景信息 Proxima CE是一款来自于阿里达摩院的实现向量近邻搜索的高性能软件，相比于Faiss等开源的同类产品，Proxima CE在稳定性、性能等方面都更为出色。Proxima CE的使用十分简洁，以...

计算资源使用

配额组（Quota）是MaxCompute的计算资源池，为MaxCompute中的计算作业提供所需计算资源（CPU及内存）。在MaxCompute中支持根据计算作业对计算资源的需求，指定匹配的Quota，助力您高效使用计算资源。本文为您介绍如何使用MaxCompute的Quota...

合并小文件

分布式系统不可避免会产生小文件，比如SQL或其他分布式引擎的计算结果、Tunnel数据采集。合并小文件可以达到优化系统性能的目的。本文为您介绍如何在MaxCompute中合并小文件。背景信息小文件过多，会带来以下问题：MaxCompute处理单个大...

作业运行常见问题

导致MaxCompute作业运行时长不达预期（作业运行慢）的原因通常可分为资源不足、作业问题、模式回退三种：资源不足对于使用包年包月计算资源的作业，可能由于总体作业运行数据量大、申请资源多、作业优先级低而导致该作业出现资源等待...

常见问题

本文为您介绍执行MaxCompute准备工作过程中的常见问题。问题类别常见问题开通MaxCompute DataWorks与MaxCompute的区别是什么？如何区分DataWorks工作空间和MaxCompute项目？开通MaxCompute服务时，如何根据本身数据存储量以及计算任务...

数据加工过程卡点校验

本文为您介绍在线或离线业务系统的数据在生成过程中进行的卡点校验。在线系统卡点校验在线业务系统产生的数据是数据仓库的重要数据来源。在线业务系统复杂多变，每次变更都会产生数据的变化。因此，数据仓库需要适应多变的业务发展，及时...

Tunnel常见错误码

RecordReader内部有缓存，一旦用户的计算或处理逻辑较为缓慢，未能在超时时限内处理完一块缓存数据并触发下一次读取，则会出现该错误。解决措施优化代码处理逻辑。报错信息：ErrorCode=Unauthorized ErrorMessage=The request ...

常见问题

本文为您整合了使用Proxima CE过程中的常见问题。Proxima CE用的是哪里的资源？用户所在MaxCompute Project下的资源。输入表中的vector可以直接使用MaxCompute的Binary类型吗？目前不支持，Proxima CE当前版本构建索引的处理方法是将doc表...

参考：Proxima CE全量参数说明

本文为您介绍Proxima CE在运行过程中所使用到的参数说明，包括可选参数和必选参数。必选参数参数名称说明 doc_table 输入底库表（MaxCompute table），需要用户准备，作为检索候选集合。重要创建的表名不能使用半角点号.，这是...

计量计费

本文为您介绍如何估算MaxCompute SQLML作业的费用。背景信息通常情况下，每个算法组件由多个子任务组成。...查看账单信息 MaxCompute SQLML作业，在账单中体现的是 大数据计算服务MaxCompute+机器学习（PAI）两个产品的费用。

准备环境

鼠标悬停至顶部菜单栏中的产品，单击 大数据计算>云原生大数据计算服务MaxCompute，进入MaxCompute产品详情页。单击立即开通。在购买页面，选择地域，并选中服务协议，单击确认订单并支付。说明购买页面默认提供的规格类型为...

自定义函数（邀测中）

在函数计算服务中根据自定义的函数计算数据。函数计算服务将计算结果以JSON的形式返回到 AnalyticDB for MySQL。AnalyticDB for MySQL 计算再将最终的计算结果返回至客户端。注意事项 Remote UDF功能仅支持标量UDF函数。语法 remote_call('...

在DataWorks中通过函数计算节点实现动态为PDF添加水印

本文为您介绍如何在DataWorks中通过函数计算节点调用函数计算服务，实现周期性对OSS中的增量PDF文件添加水印。背景介绍 DataWorks当前已经支持通过函数计算节点调用函数计算服务，在函数计算服务中可以自定义各种功能，最终可通过DataWorks...

数据传输费用（公网下载）

本文介绍MaxCompute中数据下载计费规则。MaxCompute仅对公网的下载数据进行收费，并按照下载的数据大小按量计费。MaxCompute会在第二天给出您的下载费用账单，您可以进入费用中心查看。下载计费规则如下。计费公式价格说明一次下载...

组件与数据类型的兼容

不支持不支持 PAI 支持除Decimal之外的其它数据类型 2.0新增的数据类型中仅支持INT 部分功能支持map数据类型不支持不支持 PyODPS 支持 DataFrame不支持2.0数据类型其它功能都支持2.0数据类型支持 DataFrame不支持2.0数据类型其它功能...

核心概念的层次结构

非MaxCompute项目所有者（Project Owner）的用户必须被加入MaxCompute项目中，且被授予相应的权限，才能操作MaxCompute项目中的数据、作业、资源及函数。更多用户管理信息，请参见用户规划与管理。Role（角色）角色是MaxCompute安全功能中...

DDL操作常见问题

MaxCompute限制单个作业中最多不能超过一定数量的Instance，而作业中的Instance数量和输入的数据量以及分区数量是密切相关的，所以您需要根据业务情况，选择合适的分区策略。如果源表没有分区字段，是否可以增加或更改分区？MaxCompute不...

其它操作

本文为您介绍使用MaxCompute SQL开发过程中会使用的其它常用命令。计量预估基于一条SQL作业的输入数据量大小、UDF个数以及SQL复杂等级估算作业执行费用。需要注意的是，如果UDF涉及分区裁剪，由于无法确定最终会扫描多少个分区，该场景下...

导入数据

本文为您介绍如何通过MaxCompute客户端，使用Tunnel Upload将本地数据文件中的数据导入创建好的表中。前提条件请确认您已满足如下条件：已创建表。更多创建表操作，请参见创建表。已将CSV或TXT数据文件下载至本地。本文提供的数据文件样...

SELECT语序

对于b中得到的结果筛选分组中满足total_price之和大于305的数据（having sum(total_price)>305）。对于c中得到的结果 select region,max(total_price)。对于d中得到的结果按照region进行排序（order by region）。对于e中得到的结果仅显示...

PGVector

背景信息随着数据科学和机器学习等技术的迅速发展，向量计算已经成为了大数据领域中最常见的计算任务之一。PolarDB PostgreSQL版（兼容Oracle）作为一种广泛使用的关系型数据库，结合PGVector插件后通过自定义的数据类型和存储方法，使得...

技术架构选型

在数据模型设计之前，您需要首先完成技术...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','language':'zh-CN',};

MEDIAN

请根据您上传数据文件的实际path(路径以及名称)替换emp.txt emp.txt中的数据如下：7369,SMITH,CLERK,7902,1980-12-17 00:00:00,800,20 7499,ALLEN,SALESMAN,7698,1981-02-20 00:00:00,1600,300,30 7521,WARD,SALESMAN,7698,1981-02-22 00:...

SEMI JOIN（半连接）

如果左表中满足指定条件的某行数据在右表中出现过，则此行保留在结果集中。在MaxCompute中，与 left semi join 类似的操作为 in subquery，请参见 IN SUBQUERY。您可以自行选择其中一种方式。left anti join 当 join 条件不成立时，返回左...

Join示例

MaxCompute MapReduce框架自身并不支持Join逻辑，但您可以在自己的Map或Reduce函数中实现数据的Join。测试准备准备好测试程序的JAR包，假设名字为 mapreduce-examples.jar，本地存放路径为 data\resources。准备好Join的测试表和资源。...

PyODPS节点实现结巴中文分词

本文为您介绍如何使用DataWorks的PyODPS类型节点，结合开源结巴中文分词库，对数据表中的中文字段进行分词处理并写入新的数据表，以及如何通过闭包函数使用自定义词典进行分词。前提条件已创建DataWorks工作空间并绑定了MaxCompute计算...

加工数据

user_info_d及访问日志数据ods_raw_log_d，通过DataWorks的ODPS SQL节点加工得到目标用户画像数据，阅读本文后您可了解到如何通过DataWorks+MaxCompute产品组合来计算和分析已采集的数据，完成数仓简单数据加工场景。前提条件开始本实验前...

开发UDF

说明如果需要使用MaxCompute项目中的表数据，需要先在 MaxCompute project 中更改设置Endpoint和指定项目名称，指定的MaxCompute项目的表数据未被下载至 warehouse 目录中，会先下载数据；如果数据已经下载，则跳过此步骤。MaxCompute ...

大数据中计算

新品推荐