DataWorks使用指引-DataWorks使用指引文档介绍内容-阿里云

SET

odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数，优先级低于 odps.stage.mapper.split.size、odps.stage.reducer.mem 和 odps.stage.joiner.num 属性。说明 SQL语句中使用Limit，会限制Limit作用的Worker单并发运行。因此在...

PyODPS节点实现避免将数据下载到本地

本文为您介绍PyODPS如何避免将数据下载到本地。背景信息 PyODPS提供了多种方便下载数据到本地的方法。因此，在设备允许的情况下，可以把数据下载到本地处理，然后再上传至MaxCompute。但是这种操作非常低效，数据下载到本地进行处理，无法...

SQL其他常见问题

在操作系统中，您可以通过Shell非交互式运行MaxCompute SQL：使用 odps-f filename 方式，读取并处理SQL文件。如果运行SQL，Filename文件的第一行是 SQL 表示已经进入SQL模式。命令示例如下。SQL select.from table_name where xxx;如果只...

UDF开发（Python3）

使用DataWorks开发调试UDF时，您需要先开通DataWorks并绑定MaxCompute项目，做好UDF开发前准备工作。操作详情请参见 使用DataWorks连接。编写UDF代码。您可以在任意Python开发工具中开发UDF代码并打包为一个代码包。您可以使用以下UDF代码...

PyODPS的列运算

在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据。下载鸢尾花数据集 iris.data，重命名为 iris.csv。创建表 pyodps_iris 并上传数据集 iris.csv。操作方法请参见建表并...

Python SDK概述

PyODPS是MaxCompute的Python SDK，能够方便地使用Python语言与MaxCompute进行交互和数据处理。通过该SDK，可以更高效地开发MaxCompute任务、进行数据分析和管理MaxCompute资源。本文为您介绍PyODPS的使用和常见方法。PyODPS介绍 PyODPS提供...

SQL

PyODPS支持对MaxCompute SQL的基本操作，本文为您介绍如何在PyODPS中使用SQL。背景信息 PyODPS提供对MaxCompute SQL的基本操作方法，方法如下所示。方法名称方法说明 execute_sql()/run_sql()执行SQL语句。open_reader()读取SQL执行结果。...

合并小文件

使用案例 tbcdm.dwd_tb_log_pv_di 是数据稳定性体系识别出来的需要合并小文件的物理表，通过元数据 tbcdm.dws_rmd_merge_task_1d 提供的信息，如下图所示，可以看出此表相关分区的文件个数大部分都在1000以上，多的甚至达到7000以上，但...

开发ODPS MR任务

您可以通过创建ODPS MR类型节点并提交任务调度，使用MapReduce Java API编写MapReduce程序来处理MaxCompute中的数据。前提条件上传并提交、发布使用的资源，详情请参见创建并使用MaxCompute资源。创建ODPS MR节点，详情请参见创建并管理...

开发ODPS Script任务

DataWorks为您提供ODPS Script节点，其SQL开发模式是MaxCompute基于2.0的SQL引擎提供的脚本开发模式。本文为您介绍ODPS Script节点的使用。前提条件已创建ODPS Script节点，详情请参见创建并管理MaxCompute节点。背景信息 MaxCompute当前...

API错误码（ODPS-04CCCCX）

ODPS-04CCCCX:通用描述-上下文相关说明 API错误包含Web（CCCC段为1000~1999）、Worker（CCCC段为2000~2999）、Scheduler（CCCC段为3000~3999）、Executor（CCCC段为4000~4999）和Message Service（CCCC段为5000~5999）模块错误。...

开发PyODPS脚本

新建MaxCompute PyODPS脚本后，PyODPS脚本模板会通过PyODPS Room自动初始化 odps 和 o 两个对象。通过DataWorks开发PyODPS脚本时，系统会自动创建Room。通过IntelliJ IDEA开发PyODPS脚本时，需要创建Room，详情请参见 PyODPS文档。

配置选项

本文为您介绍PyODPS提供的配置选项。您可以通过 odps.options 获得PyODPS提供的配置选项。from odps import options#设置所有输出表的生命周期（lifecycle选项）。options.lifecycle=30#使用Tunnel下载string类型时使用bytes（tunnel....

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化，为了更直观地反应整个过程，您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

Spark常见问题

在DataWorks ODPS Spark节点中选择jar、file、archive资源。说明该方案在任务运行时会上传资源，对于较大资源建议采用方案一进行引用。如何访问VPC？当前MaxCompute Spark支持以下两种方式来访问阿里云VPC中的服务：反向访问方式使用限制...

运行模式

MaxCompute Spark支持三种运行方式：Local模式、Cluster模式和DataWorks执行模式。Local模式 MaxCompute Spark支持用户以原生Spark Local模式进行作业调试。与Yarn Cluster模式类似，您首先需要做以下准备工作：准备MaxCompute项目以及对应...

Odps odps=new Odps(account);公共云URL。String odpsUrl="http://service.odps.aliyun.com/api";odps.setEndpoint(odpsUrl);odps.setDefaultProject("xxxxxxxxxx");SQLTask task=new SQLTask();task.setName("adhoc_sql_task_1");task....

常见问题

准备环境及安装工具使用MaxCompute客户端连接服务时，报错ODPS-0410031，如何解决？MaxCompute Studio支持集成安装的平台有哪些？DataWorks与MaxCompute的区别是什么？MaxCompute是数据仓库，负责存储数据或对数据进行一系列的开发和运算...

数据输入输出

processed_df.to_odps_table("test_processed_odps_table")如果表为分区表，read_odps_table 方法会读取所有分区的数据，因此如果存在多个分区，您可以通过 partitions 参数读取部分的分区数据：df=md.read_odps_table("parted_odps_table...

执行

iris3=iris[iris.sepalwidth].persist('pyodps_iris_test',partitions=['name'])print(iris3.data)返回结果：odps.Table name:odps_test_sqltask_finance.`pyodps_iris` schema:sepallength:double sepalwidth:double petallength:double ...

Java SDK介绍

Java SDK是MaxCompute提供的一套Java编程语言接口，您可以通过该接口使用Java代码来操作和管理MaxCompute服务，例如访问和管理项目、操作数据表、数据传输及函数管理等。本文从实例、资源、表、函数等几个方面为您介绍Java SDK。说明使用...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

SETPROJECT

工具平台本文中的命令您可以在 MaxCompute客户端、云命令行（odpscmd）或 DataWorks的ODPS SQL节点中执行。注意事项项目空间非工作空间。项目空间名称获取方式：登录 MaxCompute控制台，选择工作区>项目管理，项目管理页面的...

实现指定用户访问特定UDF最佳实践

{"Version":"1","Statement"[{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:projects/sz_mc/resources/getaddr.jar"},{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:...

ODPS-0130013

错误码：ODPS-0130013:Authorization exception 错误1：Authorization Failed[4011],You have NO privilege 'odps:Select' on {acs:odps:*:projects/<project_name>/tables/<table_name>}.Explicitly denied by policy.Context ID:...

ODPS-0130241

错误码：ODPS-0130241:Illegal union operation 错误1：Illegal union operation-type mismatch for column xx of UNION,left is YY while right is ZZ 错误信息示例 ODPS-0130241:[m,n]Illegal union operation-type mismatch for column ...

Spark Connector

在Spark的 conf 目录下创建 spark-defaults.conf 文件：cd$SPARK_HOME/conf vim spark-defaults.conf 文件内容示例如下：#在spark-defaults.conf配置账号 spark.hadoop.odps.project.name=doc_test spark.hadoop.odps.access.id=L*spark....

MapReduce错误码（ODPS-07CCCCX）

ODPS-07CCCCX:通用描述-上下文相关说明 MapReduce错误包含META（CCCC段为1000~1999）、PARSER（CCCC段为2000~2999）、INTERNAL（CCCC段为3000~3999）模块错误。具体错误码列表如下。错误码模块严重等级触发条件处理方法 ODPS-0720001:...

ODPS-0010000

错误码：ODPS-0010000:System internal error 错误1：fuxi job failed,caused by:kWorkerOutOfMemory(errCode:256)at Odps/xxx/xxx.Detail error msg:KILL_NAKILL_NA:plannedResource({Memory=xxx,CPU=xxx})usedResource({Memory=xxx,CPU=...

Flag参数列表

ALL 调度 Session odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数，优先级低于 odps.stage.mapper.split.size、odps.stage.reducer.mem 和 odps.stage.joiner.num 属性。说明 SQL语句中使用Limit，会限制Limit作用的Worker单...

创建DataFrame

确保 ALIBABA_CLOUD_ACCESS_KEY_ID 环境变量设置为用户 Access Key ID，#ALIBABA_CLOUD_ACCESS_KEY_SECRET 环境变量设置为用户 Access Key Secret，#不建议直接使用 Access Key ID/Access Key Secret 字符串 conn_string='odps:/s:%s@...

ODPS-0123031

错误码：ODPS-0123031:ODPS partition exception 错误1：maximum 60000 partitions allowed 错误信息示例 ODPS-0123031:ODPS partition exception-maximum 60000 partitions allowed 错误描述每张MaxCompute的分区表最多允许存在 60000 个...

统计MaxCompute TOPN费用账号及耗时作业

数据开发者在使用MaxCompute开发过程中，需要统计MaxCompute项目中账号的费用以及作业的耗时情况，助力合理规划和调整作业。本文为您介绍如何通过MaxCompute元数据（Information Schema）统计TOP费用账号及耗时作业，同时通过钉钉推送到...

Tablestore外部表

SELECT odps_orderkey,odps_orderdate,SUM(odps_totalprice)AS sum_total FROM ots_table_external WHERE odps_orderkey>5000 AND odps_orderkey< 7000 ANDodps_orderdate>='1996-05-03' AND odps_orderdate< '1997-05-01' GROUP BYodps_...

运行安全命令示例

本文为您介绍如何在MaxCompute客户端上使用Java SDK接口运行安全相关的命令。前提条件您需要完成以下操作：准备IntelliJ IDEA开发工具，请参见安装Studio。配置MaxCompute Studio连接MaxCompute项目空间，请参见创建MaxCompute项目连接...

快速入门

本文以具体数据及开发场景为例，为您介绍在DataWorks数据开发的PyODPS 3节点中，如何创建和操作MaxFrame中的DataFrame对象，以及使用DataFrame完成基本的数据处理，帮助您在十分钟内快速使用MaxFrame进行开发。数据准备本文以 movielens ...

SQL错误码（ODPS-01CCCCX）

FAILED:ODPS-0130071:[1,27]Semantic analysis exception-TIMESTAMP type is not enabled in current mode.Please set odps.sql.type.system.odps2=true to use it.产生原因：SQL语句中使用的内建函数涉及2.0数据类型（TINYINT、SMALLINT、...

Python SDK示例：SQL

注意事项 PyODPS支持MaxCompute SQL查询，并可以读取执行的结果，使用时有以下注意事项。入口对象的 execute_sql('statement')和 run_sql('statement')方法可以执行SQL语句，返回值是运行实例，详情请参见任务实例。目前暂不支持使用Arrow...

简单下载示例

本文为您介绍如何使用MaxCompute Java SDK实现数据下载。使用TableTunnel的 DownloadSession 接口实现数据下载典型的表数据下载流程：创建TableTunnel。创建DownloadSession。创建RecordReader，读取Record。示例 import java.io....

普通模式和Hive兼容模式下SQL的差异

本文为您介绍MaxCompute中运算符、类型转换和内建函数分别在普通模式和Hive兼容模式下使用的区别。运算符 BITAND（&）当输入参数是BIGINT类型的时候，如果BITAND的计算结果是LONG_MIN(-2 63)，在普通模式下会返回NULL，而Hive模式仍然是...

DataWorks使用指引

新品推荐