2020dataworks双十一活动持续几天-2020dataworks双十一活动持续几天文档介绍内容-阿里云

PyODPS常见问题

本文为您介绍使用PyODPS时的常见问题。问题类别常见问题安装PyODPS 安装PyODPS时，提示Warning:XXX not installed，如何解决？安装PyODPS时，提示Project Not Found，如何解决？安装PyODPS时，报错Syntax Error，如何解决？在Mac上安装...

Python SDK常见问题

本文为您介绍Python SDK常见问题，即PyODPS。问题类别常见问题安装PyODPS 安装PyODPS时，提示Warning:XXX not installed，如何解决？安装PyODPS时，提示Project Not Found，如何解决？安装PyODPS时，报错Syntax Error，如何解决？在Mac上...

基本操作概述

PyODPS提供直接针对ODPS对象的基本操作接口，您可以使用符合Python习惯的编程方式操作MaxCompute。PyODPS的基本操作主要包括以下几个部分：SQL 项目空间 Schema 表任务实例资源函数基本操作命令中涉及到的方法详细说明请参见 ...

PyODPS DataFrame的代码运行环境

使用PyODPS DataFrame编写数据应用时，同一个脚本文件中的代码会在不同位置执行，可能导致一些无法预期的问题，本文为您介绍当出现相关问题时，如何确定代码的执行环境，以及提供部分场景下的解决方案。概述 PyODPS是一个Python包而非...

查询加速（MCQA）

基于DataWorks临时查询或数据开发启用MCQA功能 DataWorks的临时查询及手动业务流程模块默认开启MCQA功能，您无需手动开启。如果您需要关闭MCQA功能，请填写钉钉群申请表单加入钉钉群进行反馈处理。在临时查询模块执行查询作业，...

PyODPS的列运算

本文为您介绍如何进行PyODPS的列运算。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据。下载鸢尾...

快速入门

本文以具体数据及开发场景为例，为您介绍在DataWorks数据开发的PyODPS 3节点中，如何创建和操作MaxFrame中的DataFrame对象，以及使用DataFrame完成基本的数据处理，帮助您在十分钟内快速使用MaxFrame进行开发。数据准备本文以 movielens ...

Spark常见问题

在DataWorks ODPS Spark节点中选择jar、file、archive资源。说明该方案在任务运行时会上传资源，对于较大资源建议采用方案一进行引用。如何访问VPC？当前MaxCompute Spark支持以下两种方式来访问阿里云VPC中的服务：反向访问方式使用限制...

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化，为了更直观地反应整个过程，您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

{"Version":"1","Statement"[{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:projects/sz_mc/resources/getaddr.jar"},{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:...

合并小文件

PyODPS脚本合并通过PyODPS异步提交任务，合并前一天任务产出的小文件，脚本示例如下：import os from odps import ODPS#确保 ALIBABA_CLOUD_ACCESS_KEY_ID 环境变量设置为用户 Access Key ID，#ALIBABA_CLOUD_ACCESS_KEY_SECRET 环境变量...

SETPROJECT

工具平台本文中的命令您可以在 MaxCompute客户端、云命令行（odpscmd）或 DataWorks的ODPS SQL节点中执行。注意事项项目空间非工作空间。项目空间名称获取方式：登录 MaxCompute控制台，选择工作区>项目管理，项目管理页面的...

执行

iris3=iris[iris.sepalwidth].persist('pyodps_iris_test',partitions=['name'])print(iris3.data)返回结果：odps.Table name:odps_test_sqltask_finance.`pyodps_iris` schema:sepallength:double sepalwidth:double petallength:double ...

创建DataFrame

前提条件操作下述代码示例前，您需要先准备好示例表 pyodps_iris，详细操作请参见 Dataframe数据处理。背景信息在使用DataFrame时，您需要了解 Collection（DataFrame）、Sequence 和 Scalar 三类对象的操作。三类对象分别表示表结构...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

UDF开发（Java）

使用DataWorks开发调试UDF时，您需要先开通DataWorks并绑定MaxCompute项目，做好UDF开发前准备工作。操作详情请参见使用DataWorks连接。编写UDF代码。您可以在任意Java开发工具中开发UDF代码并打包为一个JAR包。您可以使用以下UDF代码示例...

统计MaxCompute TOPN费用账号及耗时作业

Information Schema视图中的TASKS_HISTORY会记录MaxCompute项目内已完成的作业详情，且保留近14天数据。您可以将TASKS_HISTORY中的数据备份到指定MaxCompute项目中，基于该数据统计TOP费用账号。耗时作业：您可以通过TASKS_HISTORY中的数据...

SQL脚本模式

Odps odps=new Odps(account);odps.setDefaultProject("your project_name");odps.setEndpoint("your end_point");String sqlScript="@a:=SELECT*FROM jdbc_test;SELECT*FROM@a;一定要加这一行配置 Map,String>hints=new HashMap();...

Java SDK介绍

本文从实例、资源、表、函数等几个方面为您介绍Java SDK。说明使用SDK调用MaxCompute产生的计算、存储等费用与直接使用MaxCompute产生的费用一致，详情请参见计量计费背景信息较为常用的MaxCompute核心接口详情请参见 SDK Java Doc。您...

ODPS-0123031

错误码：ODPS-0123031:ODPS partition exception 错误1：maximum 60000 partitions allowed 错误信息示例 ODPS-0123031:ODPS partition exception-maximum 60000 partitions allowed 错误描述每张MaxCompute的分区表最多允许存在 60000 个...

Flag参数列表

ALL 调度 Session odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数，优先级低于 odps.stage.mapper.split.size、odps.stage.reducer.mem 和 odps.stage.joiner.num 属性。说明 SQL语句中使用Limit，会限制Limit作用的Worker单...

项目空间操作

true：打开 false：关闭 odps.sql.decimal.odps2 DECIMAL 2.0数据类型 DECIMAL(precision,scale)开关。详情请参见 2.0数据类型版本。true：打开 false：关闭 odps.timemachine.retention.days 设置备份数据的保留天数。详情请参见备份与...

ODPS-0130071

错误码：ODPS-0130071:Semantic analysis exception 错误1：the number of input partition columns(n)doesn't equal to table's partition columns(m)错误信息示例 FAILED:ODPS-0130071:[m,n]Semantic analysis exception-the number of ...

开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型，您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发，PyODPS集成了MaxCompute的Python SDK。支持您在DataWorks的PyODPS 2节点上直接编辑Python代码，操作MaxCompute。前提条件已创建PyODPS 2节点，详情...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点，您可以在该节点中直接使用Python代码编写MaxCompute作业，并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件已创建PyODPS 3节点，详情请参见创建并管理...

快速入门

PyODPS可在DataWorks等数据开发平台中作为数据开发节点调用。这些平台提供了PyODPS运行环境和调度执行的能力，无需您手动创建ODPS入口对象。PyODPS支持类似Pandas的快速、灵活和富有表现力的数据结构。您可以通过PyODPS提供的DataFrame API...

安装PyODPS

PyODPS是MaxCompute的Python版本的SDK，提供对MaxCompute对象的基本操作及DataFrame框架，帮助您在MaxCompute上使用Python进行数据分析，支持在DataWorks或本地环境上使用。本文为您介绍在本地环境上使用PyODPS时，如何安装PyODPS。前提...

准备工作

from odps import_version_as odps_version from mars import_version_as mars_version print(odps_version)print(mars_version)odps_version 为PyODPS版本，要求PyODPS为0.9.3.1以上版本。mars_version 为Mars版本，要求Mars为0.4.4以上...

PyODPS概述

DataWorks：DataWorks的PyODPS节点已安装好了PyODPS，您可以直接在DataWorks的PyODPS节点上开发PyODPS任务并周期性运行，操作指导请参见通过DataWorks使用PyODPS。PAI Notebooks：PAI的Python环境也可安装运行PyODPS，其中PAI的内置镜像均...

PyODPS参数传递

本文为您介绍如何在DataWorks中进行PyODPS参数的传递。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据...

开发PyODPS脚本

PyODPS是MaxCompute Python版本的SDK，提供对MaxCompute对象的基本操作和DataFrame框架，通过PyODPS，您可以在MaxCompute上进行数据分析。本文为您介绍如何开发PyODPS脚本，以实现与MaxCompute的高效交互和数据处理。前提条件已配置Python...

PyODPS使用第三方包

本文为您介绍如何在PyODPS中使用第三方包。PyODPS制作第三方包的操作请参见 PyODPS制作第三方包。前提条件已开通MaxCompute产品。如何开通请参见开通MaxCompute。已开通DataWorks产品。如何开通请参见开通DataWorks。上传三方包使用...

PyODPS节点实现结巴中文分词

本文为您介绍如何使用DataWorks的PyODPS类型节点，结合开源结巴中文分词库，对数据表中的中文字段进行分词处理并写入新的数据表，以及如何通过闭包函数使用自定义词典进行分词。前提条件已创建DataWorks工作空间并绑定了MaxCompute计算...

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式执行，此外，您也可在DataWorks中运行MaxCompute Spark离线作业（Cluster模式），以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现MaxCompute Spark作业的配置与...

开源支持

如何在DataWorks上使用PyODPS，详情请参见 PyODPS开发指南。PyODPS提供了DataFrame API，详情请参见 PyODPS DataFrame概述。欢迎您在GitHub aliyun-odps-python-sdk 反馈问题和需求，加快PyODPS生态成长。服务支持方式：您可通过访问官方...

PyODPS查看一级分区

本文为您介绍如何在PyODPS中查看一级分区。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据。创建表并...

PyODPS的去重

本文为您介绍如何进行PyODPS的去重。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据。下载鸢尾花 ...

PyODPS读取分区表数据

本文为您介绍如何通过PyODPS读取分区表数据。前提条件您需要完成以下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据。创建表并...

ODPS-0420095

错误码：ODPS-0420095:Access Denied 错误1：You have no privilege to create external project-you have to be owner,super admin or admin of the referred project.错误信息 ODPS-0420095:Access Denied-You have no privilege to ...

通过DataWorks使用PyODPS

PyODPS为MaxCompute的Python版SDK，支持在DataWorks中开发运行PyODPS任务。本文为您介绍在DataWorks上使用PyODPS的使用限制、主要流程和部分简单应用示例。使用限制使用方式限制如果您发现有 Got killed 报错，即表明内存使用超限，进程...

2020dataworks双十一活动持续几天

新品推荐