PyODPS常见问题

本文为您介绍使用PyODPS时的常见问题。问题类别 常见问题 安装PyODPS 安装PyODPS时,提示Warning:XXX not installed,如何解决?安装PyODPS时,提示Project Not Found,如何解决?安装PyODPS时,报错Syntax Error,如何解决?在Mac上安装...

Python SDK常见问题

本文为您介绍Python SDK常见问题,即PyODPS。问题类别 常见问题 安装PyODPS 安装PyODPS时,提示Warning:XXX not installed,如何解决?安装PyODPS时,提示Project Not Found,如何解决?安装PyODPS时,报错Syntax Error,如何解决?在Mac上...

基本操作概述

PyODPS提供直接针对ODPS对象的基本操作接口,您可以使用符合Python习惯的编程方式操作MaxCompute。PyODPS的基本操作主要包括以下个部分:SQL 项目空间 Schema 表 任务实例 资源 函数 基本操作命令中涉及到的方法详细说明请参见 ...

PyODPS DataFrame的代码运行环境

使用PyODPS DataFrame编写数据应用时,同一个脚本文件中的代码会在不同位置执行,可能导致一些无法预期的问题,本文为您介绍当出现相关问题时,如何确定代码的执行环境,以及提供部分场景下的解决方案。概述 PyODPS是一个Python包而非...

查询加速(MCQA)

基于DataWorks临时查询或数据开发启用MCQA功能 DataWorks的 临时查询 及 手动业务流程 模块默认开启MCQA功能,您无需手动开启。如果您需要关闭MCQA功能,请填写 钉钉群申请表单 加入钉钉群进行反馈处理。在 临时查询 模块执行查询作业,...

PyODPS的列运算

本文为您介绍如何进行PyODPS的列运算。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据。下载 鸢尾...

快速入门

本文以具体数据及开发场景为例,为您介绍在DataWorks数据开发的PyODPS 3节点中,如何创建和操作MaxFrame中的DataFrame对象,以及使用DataFrame完成基本的数据处理,帮助您在十分钟内快速使用MaxFrame进行开发。数据准备 本文以 movielens ...

Spark常见问题

DataWorks ODPS Spark节点中选择jar、file、archive资源。说明 该方案在任务运行时会上传资源,对于较大资源建议采用方案一进行引用。如何访问VPC?当前MaxCompute Spark支持以下两种方式来访问阿里云VPC中的服务:反向访问方式 使用限制...

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化,为了更直观地反应整个过程,您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件 和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

实现指定用户访问特定UDF最佳实践

{"Version":"1","Statement"[{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:projects/sz_mc/resources/getaddr.jar"},{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:...

合并小文件

PyODPS脚本合并 通过PyODPS异步提交任务,合并前一任务产出的小文件,脚本示例如下:import os from odps import ODPS#确保 ALIBABA_CLOUD_ACCESS_KEY_ID 环境变量设置为用户 Access Key ID,#ALIBABA_CLOUD_ACCESS_KEY_SECRET 环境变量...

SETPROJECT

工具平台 本文中的命令您可以在 MaxCompute客户端、云命令行(odpscmd)或 DataWorksODPS SQL节点 中执行。注意事项 项目空间非工作空间。项目空间名称获取方式:登录 MaxCompute控制台,选择 工作区>项目管理,项目管理 页面的...

执行

iris3=iris[iris.sepalwidth].persist('pyodps_iris_test',partitions=['name'])print(iris3.data)返回结果:odps.Table name:odps_test_sqltask_finance.`pyodps_iris` schema:sepallength:double sepalwidth:double petallength:double ...

创建DataFrame

前提条件 操作下述代码示例前,您需要先准备好示例表 pyodps_iris,详细操作请参见 Dataframe数据处理。背景信息 在使用DataFrame时,您需要了解 Collection(DataFrame)、Sequence 和 Scalar 三类对象的操作。三类对象分别表示表结构...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

UDF开发(Java)

使用DataWorks开发调试UDF时,您需要先开通DataWorks并绑定MaxCompute项目,做好UDF开发前准备工作。操作详情请参见 使用DataWorks连接。编写UDF代码。您可以在任意Java开发工具中开发UDF代码并打包为一个JAR包。您可以使用以下UDF代码示例...

统计MaxCompute TOPN费用账号及耗时作业

Information Schema视图中的TASKS_HISTORY会记录MaxCompute项目内已完成的作业详情,且保留近14数据。您可以将TASKS_HISTORY中的数据备份到指定MaxCompute项目中,基于该数据统计TOP费用账号。耗时作业:您可以通过TASKS_HISTORY中的数据...

SQL脚本模式

Odps odps=new Odps(account);odps.setDefaultProject("your project_name");odps.setEndpoint("your end_point");String sqlScript="@a:=SELECT*FROM jdbc_test;SELECT*FROM@a;一定要加这一行配置 Map,String>hints=new HashMap();...

Java SDK介绍

本文从实例、资源、表、函数等个方面为您介绍Java SDK。说明 使用SDK调用MaxCompute产生的计算、存储等费用与直接使用MaxCompute产生的费用一致,详情请参见 计量计费 背景信息 较为常用的MaxCompute核心接口详情请参见 SDK Java Doc。您...

ODPS-0123031

错误码:ODPS-0123031:ODPS partition exception 错误1:maximum 60000 partitions allowed 错误信息示例 ODPS-0123031:ODPS partition exception-maximum 60000 partitions allowed 错误描述 每张MaxCompute的分区表最多允许存在 60000 个...

Flag参数列表

ALL 调度 Session odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数,优先级低于 odps.stage.mapper.split.size、odps.stage.reducer.mem 和 odps.stage.joiner.num 属性。说明 SQL语句中使用Limit,会限制Limit作用的Worker单...

项目空间操作

true:打开 false:关闭 odps.sql.decimal.odps2 DECIMAL 2.0数据类型 DECIMAL(precision,scale)开关。详情请参见 2.0数据类型版本。true:打开 false:关闭 odps.timemachine.retention.days 设置备份数据的保留天数。详情请参见 备份与...

ODPS-0130071

错误码:ODPS-0130071:Semantic analysis exception 错误1:the number of input partition columns(n)doesn't equal to table's partition columns(m)错误信息示例 FAILED:ODPS-0130071:[m,n]Semantic analysis exception-the number of ...

开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型,您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发,PyODPS集成了MaxCompute的Python SDK。支持您在DataWorksPyODPS 2节点上直接编辑Python代码,操作MaxCompute。前提条件 已创建PyODPS 2节点,详情...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点,您可以在该节点中直接使用Python代码编写MaxCompute作业,并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件 已创建PyODPS 3节点,详情请参见 创建并管理...

快速入门

PyODPS可在DataWorks等数据开发平台中作为数据开发节点调用。这些平台提供了PyODPS运行环境和调度执行的能力,无需您手动创建ODPS入口对象。PyODPS支持类似Pandas的快速、灵活和富有表现力的数据结构。您可以通过PyODPS提供的DataFrame API...

安装PyODPS

PyODPS是MaxCompute的Python版本的SDK,提供对MaxCompute对象的基本操作及DataFrame框架,帮助您在MaxCompute上使用Python进行数据分析,支持在DataWorks或本地环境上使用。本文为您介绍在本地环境上使用PyODPS时,如何安装PyODPS。前提...

准备工作

from odps import_version_as odps_version from mars import_version_as mars_version print(odps_version)print(mars_version)odps_version 为PyODPS版本,要求PyODPS为0.9.3.1以上版本。mars_version 为Mars版本,要求Mars为0.4.4以上...

PyODPS概述

DataWorksDataWorksPyODPS节点已安装好了PyODPS,您可以直接在DataWorksPyODPS节点上开发PyODPS任务并周期性运行,操作指导请参见 通过DataWorks使用PyODPS。PAI Notebooks:PAI的Python环境也可安装运行PyODPS,其中PAI的内置镜像均...

PyODPS参数传递

本文为您介绍如何在DataWorks中进行PyODPS参数的传递。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 准备测试数据...

开发PyODPS脚本

PyODPS是MaxCompute Python版本的SDK,提供对MaxCompute对象的基本操作和DataFrame框架,通过PyODPS,您可以在MaxCompute上进行数据分析。本文为您介绍如何开发PyODPS脚本,以实现与MaxCompute的高效交互和数据处理。前提条件 已配置Python...

PyODPS使用第三方包

本文为您介绍如何在PyODPS中使用第三方包。PyODPS制作第三方包的操作请参见 PyODPS制作第三方包。前提条件 已开通MaxCompute产品。如何开通请参见 开通MaxCompute。已开通DataWorks产品。如何开通请参见 开通DataWorks。上传三方包 使用...

PyODPS节点实现结巴中文分词

本文为您介绍如何使用DataWorksPyODPS类型节点,结合开源结巴中文分词库,对数据表中的中文字段进行分词处理并写入新的数据表,以及如何通过闭包函数使用自定义词典进行分词。前提条件 已创建DataWorks工作空间并绑定了MaxCompute计算...

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式 执行,此外,您也可在DataWorks中运行MaxCompute Spark离线作业(Cluster模式),以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现MaxCompute Spark作业的配置与...

开源支持

如何在DataWorks上使用PyODPS,详情请参见 PyODPS开发指南。PyODPS提供了DataFrame API,详情请参见 PyODPS DataFrame概述。欢迎您在GitHub aliyun-odps-python-sdk 反馈问题和需求,加快PyODPS生态成长。服务支持方式:您可通过访问官方...

PyODPS查看一级分区

本文为您介绍如何在PyODPS中查看一级分区。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 准备测试数据。创建表并...

PyODPS的去重

本文为您介绍如何进行PyODPS的去重。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据。下载 鸢尾花 ...

PyODPS读取分区表数据

本文为您介绍如何通过PyODPS读取分区表数据。前提条件 您需要完成以下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 准备测试数据。创建表并...

ODPS-0420095

错误码:ODPS-0420095:Access Denied 错误1:You have no privilege to create external project-you have to be owner,super admin or admin of the referred project.错误信息 ODPS-0420095:Access Denied-You have no privilege to ...

通过DataWorks使用PyODPS

PyODPS为MaxCompute的Python版SDK,支持在DataWorks中开发运行PyODPS任务。本文为您介绍在DataWorks上使用PyODPS的使用限制、主要流程和部分简单应用示例。使用限制 使用方式限制 如果您发现有 Got killed 报错,即表明内存使用超限,进程...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
大数据开发治理平台 DataWorks 数据传输服务 云数据库 Redis 版 邮件推送 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用