阿里云DataWorks配置-阿里云DataWorks配置文档介绍内容-阿里云

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

{"Version":"1","Statement":[{"Effect":"Allow","Action":["odps:UpdateQuota","odps:UpdateQuotaPlan","odps:UpdateSubQuotas","odps:UpdateQuotaSchedule","odps:CreateQuotaPlan","odps:DeleteQuotaPlan","odps:CreateQuotaSchedule"],...

SET

odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数，优先级低于 odps.stage.mapper.split.size、odps.stage.reducer.mem 和 odps.stage.joiner.num 属性。说明 SQL语句中使用Limit，会限制Limit作用的Worker单并发运行。因此在...

PyODPS的排序

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))#排序 print iris.sort('sepalwidth').head(5)#降序排列两种方式#设置参数ascending=False;进行降序排列 print iris.sort('sepalwidth',ascending=False).head(5...

开发ODPS MR任务

在DataWorks中，您可以通过ODPS MR节点实现MaxCompute MapReduce任务的调度运行，以及与其他作业的集成操作。使用限制 ODPS MR节点的使用限制请参见使用限制。编辑代码：简单示例以下以一个简单示例为您介绍ODPS MR节点的使用：统计wc_in...

ODPS-0123144

错误码：ODPS-0123144:Fuxi job failed 错误1：kInstanceMonitorTimeout(errCode:252)at Odps/xxx/xxx.Detail error msg:CRASH_EXIT,usually caused by bad udf performance.错误信息 ODPS-0123144:Fuxi job failed-...

数据类型版本说明

查看 odps.sql.type.system.odps2、odps.sql.decimal.odps2、odps.sql.hive.compatible 属性判断当前项目的数据类型版本。修改项目的数据类型版本如果发现项目当前选择的数据类型版本不能满足业务需求，可以修改数据类型版本。项目管理员...

SETPROJECT

工具平台本文中的命令您可以在 MaxCompute客户端、云命令行（odpscmd）或 DataWorks的ODPS SQL节点中执行。注意事项项目空间非工作空间。项目空间名称获取方式：登录 MaxCompute控制台，选择工作区>项目管理，项目管理页面的...

Spark Connector

在Spark的 conf 目录下创建 spark-defaults.conf 文件：cd$SPARK_HOME/conf vim spark-defaults.conf 文件内容示例如下：#在spark-defaults.conf配置账号 spark.hadoop.odps.project.name=doc_test spark.hadoop.odps.access.id=L*spark....

PyODPS API概述

本文为您提供了PyODPS API文档链接，其中包含各函数的参数说明及示例。ODPS详解（Definitions）PyODPS DataFrame指南（DataFrame Reference）

Python SDK概述

PyODPS是MaxCompute的Python SDK，能够方便地使用Python语言与MaxCompute进行交互和数据处理。通过该SDK，可以更高效地开发MaxCompute任务、进行数据分析和管理MaxCompute资源。本文为您介绍PyODPS的使用和常见方法。PyODPS介绍 PyODPS提供...

Davinci连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入Davinci，您只需在可视化UI界面上简单配置即可服务多种数据可视化应用。本文为您介绍如何通过MaxCompute JDBC驱动，连接Davinci和MaxCompute项目，并进行可视化数据分析。背景信息 Davinci是面向...

Flag参数列表

ALL 调度 Session odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数，优先级低于 odps.stage.mapper.split.size、odps.stage.reducer.mem 和 odps.stage.joiner.num 属性。说明 SQL语句中使用Limit，会限制Limit作用的Worker单...

运行安全命令示例

SecurityManager类在odps-sdk-core包中，因此在使用时需要执行如下配置。groupId>com.aliyun.odps</groupId><artifactId>odps-sdk-core</artifactId><version>X.X.X-public</version></dependency>您可以在 search.maven.org ...

Tablestore外部表

SELECT odps_orderkey,odps_orderdate,SUM(odps_totalprice)AS sum_total FROM ots_table_external WHERE odps_orderkey>5000 AND odps_orderkey< 7000 ANDodps_orderdate>='1996-05-03' AND odps_orderdate< '1997-05-01' GROUP BYodps_...

RAM权限策略管理

{"Version":"1","Statement":[{"Effect":"Allow","Action":["odps:UpdateQuota","odps:UpdateQuotaPlan","odps:UpdateSubQuotas","odps:UpdateQuotaSchedule","odps:CreateQuotaPlan","odps:DeleteQuotaPlan","odps:CreateQuotaSchedule"],...

开发ODPS SQL任务

DataWorks为您提供ODPS SQL节点，可用于周期性调度MaxCompute的SQL任务，并完成与其他类型节点的集成和联合调度。MaxCompute SQL任务采用类似SQL的语法，适用于海量数据（TB级）但实时性要求不高的分布式处理场景。本文为您介绍在DataWorks...

统计MaxCompute TOPN费用账号及耗时作业

{datetime1} 为DataWorks的调度参数，您需要在ODPS SQL节点右侧，单击调度配置，在基础属性区域配置参数值为 datetime1=${yyyymmdd}。说明如果需要同时对多个MaxCompute项目的元数据进行统计分析，您可以创建多个ODPS SQL节点，将...

项目空间操作

odps.table.lifecycle 设置项目空间下的表是否需要配置生命周期。optional：创建表时，Lifecycle子句为可选设置，如果不设置表的生命周期，则该表永久有效。mandatory：Lifecycle子句为必选设置，用户必须设置表的生命周期。inherit：创建...

MaxCompute如何访问Hologres

需配置以下配置项 spark.hadoop.odps.project.name=<MaxCompute_Project_Name>spark.hadoop.odps.end.point=<Endpoint>spark.hadoop.odps.runtime.end.point=<VPC_Endpoint>spark.hadoop.odps.access.id=<AccessKey_ID>spark.hadoop.odps....

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化，为了更直观地反应整个过程，您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

通过控制台（新版）管理用户权限

{"Statement":[{"Action":["odps:CreateTable","odps:CreateInstance","odps:List"],"Effect":"Allow","Resource":["acs:odps:*:projects/project_name"]},{"Action":["odps:Describe","odps:Select"],"Effect":"Allow","Resource":["acs:...

表

PyODPS支持对MaxCompute表的基本操作，包括创建表、创建表的Schema、同步表更新、获取表数据、删除表、表分区操作以及如何将表转换为DataFrame对象。背景信息 PyODPS提供对MaxCompute表的基本操作方法。操作说明基本操作列出项目空间下...

Python SDK示例：SQL

from odps import options options.sql.settings={'odps.sql.mapper.split.size':16} o.execute_sql('select*from pyodps_iris')#会根据全局配置添加hints 读取SQL执行结果运行SQL的Instance能够直接执行 open_reader 操作读取SQL执行结果...

开发ODPS Script任务

DataWorks为您提供ODPS Script节点，其SQL开发模式是MaxCompute基于2.0的SQL引擎提供的脚本开发模式。本文为您介绍ODPS Script节点的使用。前提条件已创建ODPS Script节点，详情请参见创建并管理MaxCompute节点。背景信息 MaxCompute当前...

合并小文件

PyODPS脚本合并通过PyODPS异步提交任务，合并前一天任务产出的小文件，脚本示例如下：import os from odps import ODPS#确保 ALIBABA_CLOUD_ACCESS_KEY_ID 环境变量设置为用户 Access Key ID，#ALIBABA_CLOUD_ACCESS_KEY_SECRET 环境变量...

执行

iris3=iris[iris.sepalwidth].persist('pyodps_iris_test',partitions=['name'])print(iris3.data)返回结果：odps.Table name:odps_test_sqltask_finance.`pyodps_iris` schema:sepallength:double sepalwidth:double petallength:double ...

SQL错误码（ODPS-01CCCCX）

FAILED:ODPS-0130071:[1,27]Semantic analysis exception-TIMESTAMP type is not enabled in current mode.Please set odps.sql.type.system.odps2=true to use it.产生原因：SQL语句中使用的内建函数涉及2.0数据类型（TINYINT、SMALLINT、...

项目管理（新版）

是否需配置生命周期设置项目空间下的表是否需要配置生命周期，即为设置 odps.table.lifecycle 属性，有如下取值。optional：创建表时，Lifecycle子句为可选设置，如果不设置表的生命周期，则该表永久有效。mandatory：Lifecycle子句为必选...

多线程上传示例

本文通过代码示例向您介绍如何使用TableTunnel接口实现多线程上传。import java.io.IOException;import java.util.ArrayList;...如果不指定，默认按照ODPS Endpoint对应的Tunnel Endpoint（或配置的独享资源组）进行下载。

快速入门

注意事项如果您使用Maven开发MapReduce程序，可以从 Maven库中搜索 odps-sdk-mapred、odps-sdk-commons 和 odps-sdk-core 获取不同版本的Java SDK，pom.xml文件需要配置的依赖信息如下。groupId>com.aliyun.odps</groupId>...

镜像管理

MaxCompute提供镜像管理功能，内置数据分析、科学计算、机器学习（如Pandas、Numpy、Scikit-learn、Xgboost）等各类常用镜像，并已对镜像进行预先加热，您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像，无需执行繁琐的镜像打包、上传...

计算资源使用

例如，DataWorks的调度任务发起补数据作业固定会传参数 SKYNET_DAGTYPE:3 到作业Settings 里，那么可以配置Quota规则如下：创建一个Quota命名为 refill，对 refill Quota配置规则，如果目标是：所有DataWorks的调度发起的补数据作业都默认...

简单下载示例

您也可以根据业务需要，保存到配置文件里/强烈建议不要把 AccessKey 和 AccessKeySecret 保存到代码里，会存在密钥泄漏风险 private static String accessId=System.getenv("ALIBABA_CLOUD_ACCESS_KEY_ID");private static String ...

使用限制

边界名边界值分类配置项名称默认值是否可配置说明 Instance内存占用[256 MB,12 GB]内存限制 odps.stage.mapper(reducer).mem 和 odps.stage.mapper(reducer).jvm.mem 2048 MB＋1024 MB 是单个Map Instance或Reduce Instance占用...

创建并使用自定义函数

DataWorks支持您可视化创建与管理MaxCompute自定义函数，您可通过 MaxCompute的SQL命令创建与管理MaxCompute函数，也可使用DataWorks的可视化方式注册。本文为您介绍如何使用DataWorks可视化方式创建与使用MaxCompute自定义函数。前提条件 ...

创建DataFrame

前提条件操作下述代码示例前，您需要先准备好示例表 pyodps_iris，详细操作请参见 Dataframe数据处理。背景信息在使用DataFrame时，您需要了解 Collection（DataFrame）、Sequence 和 Scalar 三类对象的操作。三类对象分别表示表结构...

UDF开发（Java）

使用DataWorks开发调试UDF时，您需要先开通DataWorks并绑定MaxCompute项目，做好UDF开发前准备工作。操作详情请参见使用DataWorks连接。编写UDF代码。您可以在任意Java开发工具中开发UDF代码并打包为一个JAR包。您可以使用以下UDF代码示例...

权限问题

MaxCompute表无Download权限报错信息解决方法在DataWorks的数据地图中搜索对应的MaxCompute表，并申请开通其Download权限，运行时则可以下载相应的数据。MaxCompute表无Describe、Select等权限报错信息解决方法申请对应Project下的...

Spark-2.x示例

本文为您介绍Spark-2.x依赖的配置以及Spark-2.x示例说明。配置Spark-2.x的依赖通过MaxCompute提供的Spark客户端提交应用时，需要在 pom.xml 文件中添加以下依赖。pom.xml 文件请参见 pom.xml。spark.version>2.3.0...

阿里云DataWorks配置

新品推荐