SET

odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数,优先级低于 odps.stage.mapper.split.size、odps.stage.reducer.mem 和 odps.stage.joiner.num 属性。说明 SQL语句中使用Limit,会限制Limit作用的Worker单并发运行。因此在...

PyODPS节点实现避免将数据下载到本地

本文为您介绍PyODPS如何避免将数据下载到本地。背景信息 PyODPS提供了多种方便下载数据到本地的方法。因此,在设备允许的情况下,可以把数据下载到本地处理,然后再上传至MaxCompute。但是这种操作非常低效,数据下载到本地进行处理,无法...

SQL其他常见问题

在操作系统中,您可以通过Shell非交互式运行MaxCompute SQL:使用 odps-f filename 方式,读取并处理SQL文件。如果运行SQL,Filename文件的第一行是 SQL 表示已经进入SQL模式。命令示例如下。SQL select.from table_name where xxx;如果只...

UDF开发(Python3)

使用DataWorks开发调试UDF时,您需要先开通DataWorks并绑定MaxCompute项目,做好UDF开发前准备工作。操作详情请参见 使用DataWorks连接。编写UDF代码。您可以在任意Python开发工具中开发UDF代码并打包为一个代码包。您可以使用以下UDF代码...

PyODPS的列运算

在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据。下载 鸢尾花 数据集 iris.data,重命名为 iris.csv。创建表 pyodps_iris 并上传数据集 iris.csv。操作方法请参见 建表并...

Python SDK概述

PyODPS是MaxCompute的Python SDK,能够方便地使用Python语言与MaxCompute进行交互和数据处理。通过该SDK,可以更高效地开发MaxCompute任务、进行数据分析和管理MaxCompute资源。本文为您介绍PyODPS使用和常见方法。PyODPS介绍 PyODPS提供...

SQL

PyODPS支持对MaxCompute SQL的基本操作,本文为您介绍如何在PyODPS使用SQL。背景信息 PyODPS提供对MaxCompute SQL的基本操作方法,方法如下所示。方法名称 方法说明 execute_sql()/run_sql()执行SQL语句。open_reader()读取SQL执行结果。...

合并小文件

使用案例 tbcdm.dwd_tb_log_pv_di 是数据稳定性体系识别出来的需要合并小文件的物理表,通过元数据 tbcdm.dws_rmd_merge_task_1d 提供的信息,如下图所示,可以看出此表相关分区的文件个数大部分都在1000以上,多的甚至达到7000以上,但...

开发ODPS MR任务

您可以通过创建ODPS MR类型节点并提交任务调度,使用MapReduce Java API编写MapReduce程序来处理MaxCompute中的数据。前提条件 上传并提交、发布使用的资源,详情请参见 创建并使用MaxCompute资源。创建ODPS MR节点,详情请参见 创建并管理...

开发ODPS Script任务

DataWorks为您提供ODPS Script节点,其SQL开发模式是MaxCompute基于2.0的SQL引擎提供的脚本开发模式。本文为您介绍ODPS Script节点的使用。前提条件 已创建ODPS Script节点,详情请参见 创建并管理MaxCompute节点。背景信息 MaxCompute当前...

API错误码(ODPS-04CCCCX)

ODPS-04CCCCX:通用描述-上下文相关说明 API错误包含Web(CCCC段为1000~1999)、Worker(CCCC段为2000~2999)、Scheduler(CCCC段为3000~3999)、Executor(CCCC段为4000~4999)和Message Service(CCCC段为5000~5999)模块错误。...

开发PyODPS脚本

新建MaxCompute PyODPS脚本后,PyODPS脚本模板会通过PyODPS Room自动初始化 odps 和 o 两个对象。通过DataWorks开发PyODPS脚本时,系统会自动创建Room。通过IntelliJ IDEA开发PyODPS脚本时,需要创建Room,详情请参见 PyODPS文档。

配置选项

本文为您介绍PyODPS提供的配置选项。您可以通过 odps.options 获得PyODPS提供的配置选项。from odps import options#设置所有输出表的生命周期(lifecycle选项)。options.lifecycle=30#使用Tunnel下载string类型时使用bytes(tunnel....

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化,为了更直观地反应整个过程,您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件 和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

Spark常见问题

DataWorks ODPS Spark节点中选择jar、file、archive资源。说明 该方案在任务运行时会上传资源,对于较大资源建议采用方案一进行引用。如何访问VPC?当前MaxCompute Spark支持以下两种方式来访问阿里云VPC中的服务:反向访问方式 使用限制...

运行模式

MaxCompute Spark支持三种运行方式:Local模式、Cluster模式和DataWorks执行模式。Local模式 MaxCompute Spark支持用户以原生Spark Local模式进行作业调试。与Yarn Cluster模式类似,您首先需要做以下准备工作:准备MaxCompute项目以及对应...

作业优先级

Odps odps=new Odps(account);公共云URL。String odpsUrl="http://service.odps.aliyun.com/api";odps.setEndpoint(odpsUrl);odps.setDefaultProject("xxxxxxxxxx");SQLTask task=new SQLTask();task.setName("adhoc_sql_task_1");task....

常见问题

准备环境及安装工具 使用MaxCompute客户端连接服务时,报错ODPS-0410031,如何解决?MaxCompute Studio支持集成安装的平台有哪些?DataWorks与MaxCompute的区别是什么?MaxCompute是数据仓库,负责存储数据或对数据进行一系列的开发和运算...

数据输入输出

processed_df.to_odps_table("test_processed_odps_table")如果表为分区表,read_odps_table 方法会读取所有分区的数据,因此如果存在多个分区,您可以通过 partitions 参数读取部分的分区数据:df=md.read_odps_table("parted_odps_table...

执行

iris3=iris[iris.sepalwidth].persist('pyodps_iris_test',partitions=['name'])print(iris3.data)返回结果:odps.Table name:odps_test_sqltask_finance.`pyodps_iris` schema:sepallength:double sepalwidth:double petallength:double ...

Java SDK介绍

Java SDK是MaxCompute提供的一套Java编程语言接口,您可以通过该接口使用Java代码来操作和管理MaxCompute服务,例如访问和管理项目、操作数据表、数据传输及函数管理等。本文从实例、资源、表、函数等几个方面为您介绍Java SDK。说明 使用...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

SETPROJECT

工具平台 本文中的命令您可以在 MaxCompute客户端、云命令行(odpscmd)或 DataWorksODPS SQL节点 中执行。注意事项 项目空间非工作空间。项目空间名称获取方式:登录 MaxCompute控制台,选择 工作区>项目管理,项目管理 页面的...

实现指定用户访问特定UDF最佳实践

{"Version":"1","Statement"[{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:projects/sz_mc/resources/getaddr.jar"},{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:...

ODPS-0130013

错误码:ODPS-0130013:Authorization exception 错误1:Authorization Failed[4011],You have NO privilege 'odps:Select' on {acs:odps:*:projects/<project_name>/tables/<table_name>}.Explicitly denied by policy.Context ID:...

ODPS-0130241

错误码:ODPS-0130241:Illegal union operation 错误1:Illegal union operation-type mismatch for column xx of UNION,left is YY while right is ZZ 错误信息示例 ODPS-0130241:[m,n]Illegal union operation-type mismatch for column ...

Spark Connector

在Spark的 conf 目录下创建 spark-defaults.conf 文件:cd$SPARK_HOME/conf vim spark-defaults.conf 文件内容示例如下:#在spark-defaults.conf配置账号 spark.hadoop.odps.project.name=doc_test spark.hadoop.odps.access.id=L*spark....

MapReduce错误码(ODPS-07CCCCX)

ODPS-07CCCCX:通用描述-上下文相关说明 MapReduce错误包含META(CCCC段为1000~1999)、PARSER(CCCC段为2000~2999)、INTERNAL(CCCC段为3000~3999)模块错误。具体错误码列表如下。错误码 模块 严重等级 触发条件 处理方法 ODPS-0720001:...

ODPS-0010000

错误码:ODPS-0010000:System internal error 错误1:fuxi job failed,caused by:kWorkerOutOfMemory(errCode:256)at Odps/xxx/xxx.Detail error msg:KILL_NAKILL_NA:plannedResource({Memory=xxx,CPU=xxx})usedResource({Memory=xxx,CPU=...

Flag参数列表

ALL 调度 Session odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数,优先级低于 odps.stage.mapper.split.size、odps.stage.reducer.mem 和 odps.stage.joiner.num 属性。说明 SQL语句中使用Limit,会限制Limit作用的Worker单...

创建DataFrame

确保 ALIBABA_CLOUD_ACCESS_KEY_ID 环境变量设置为用户 Access Key ID,#ALIBABA_CLOUD_ACCESS_KEY_SECRET 环境变量设置为用户 Access Key Secret,#不建议直接使用 Access Key ID/Access Key Secret 字符串 conn_string='odps:/s:%s@...

ODPS-0123031

错误码:ODPS-0123031:ODPS partition exception 错误1:maximum 60000 partitions allowed 错误信息示例 ODPS-0123031:ODPS partition exception-maximum 60000 partitions allowed 错误描述 每张MaxCompute的分区表最多允许存在 60000 个...

统计MaxCompute TOPN费用账号及耗时作业

数据开发者在使用MaxCompute开发过程中,需要统计MaxCompute项目中账号的费用以及作业的耗时情况,助力合理规划和调整作业。本文为您介绍如何通过MaxCompute元数据(Information Schema)统计TOP费用账号及耗时作业,同时通过钉钉推送到...

Tablestore外部表

SELECT odps_orderkey,odps_orderdate,SUM(odps_totalprice)AS sum_total FROM ots_table_external WHERE odps_orderkey>5000 AND odps_orderkey< 7000 ANDodps_orderdate>='1996-05-03' AND odps_orderdate< '1997-05-01' GROUP BYodps_...

运行安全命令示例

本文为您介绍如何在MaxCompute客户端上使用Java SDK接口运行安全相关的命令。前提条件 您需要完成以下操作:准备IntelliJ IDEA开发工具,请参见 安装Studio。配置MaxCompute Studio连接MaxCompute项目空间,请参见 创建MaxCompute项目连接...

快速入门

本文以具体数据及开发场景为例,为您介绍在DataWorks数据开发的PyODPS 3节点中,如何创建和操作MaxFrame中的DataFrame对象,以及使用DataFrame完成基本的数据处理,帮助您在十分钟内快速使用MaxFrame进行开发。数据准备 本文以 movielens ...

SQL错误码(ODPS-01CCCCX)

FAILED:ODPS-0130071:[1,27]Semantic analysis exception-TIMESTAMP type is not enabled in current mode.Please set odps.sql.type.system.odps2=true to use it.产生原因:SQL语句中使用的内建函数涉及2.0数据类型(TINYINT、SMALLINT、...

Python SDK示例:SQL

注意事项 PyODPS支持MaxCompute SQL查询,并可以读取执行的结果,使用时有以下注意事项。入口对象的 execute_sql('statement')和 run_sql('statement')方法可以执行SQL语句,返回值是运行实例,详情请参见 任务实例。目前暂不支持使用Arrow...

简单下载示例

本文为您介绍如何使用MaxCompute Java SDK实现数据下载。使用TableTunnel的 DownloadSession 接口实现数据下载 典型的表数据下载流程:创建TableTunnel。创建DownloadSession。创建RecordReader,读取Record。示例 import java.io....

普通模式和Hive兼容模式下SQL的差异

本文为您介绍MaxCompute中运算符、类型转换和内建函数分别在普通模式和Hive兼容模式下使用的区别。运算符 BITAND(&)当输入参数是BIGINT类型的时候,如果BITAND的计算结果是LONG_MIN(-2 63),在普通模式下会返回NULL,而Hive模式仍然是...
共有165条 < 1 2 3 4 ... 165 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
大数据开发治理平台 DataWorks 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构 对象存储
新人特惠 爆款特惠 最新活动 免费试用