DataWorks排名-DataWorks排名文档介绍内容-阿里云

表

PyODPS支持对MaxCompute表的基本操作，包括创建表、创建表的Schema、同步表更新、获取表数据、删除表、表分区操作以及如何将表转换为DataFrame对象。背景信息 PyODPS提供对MaxCompute表的基本操作方法。操作说明基本操作列出项目空间下...

快速入门

本文使用DataWorks PyODPS节点功能，详情请参见开发PyODPS 3任务。创建测试数据表。使用DataWorks表管理功能新建表：打开相应的业务流程，右键单击 MaxCompute，选择新建表。在新建表对话框中，选择路径，输入名称，单击新建，进入...

开发ODPS SQL任务

DataWorks为您提供ODPS SQL节点，可用于周期性调度MaxCompute的SQL任务，并完成与其他类型节点的集成和联合调度。MaxCompute SQL任务采用类似SQL的语法，适用于海量数据（TB级）但实时性要求不高的分布式处理场景。本文为您介绍在DataWorks...

合并小文件

PyODPS脚本合并通过PyODPS异步提交任务，合并前一天任务产出的小文件，脚本示例如下：import os from odps import ODPS#确保 ALIBABA_CLOUD_ACCESS_KEY_ID 环境变量设置为用户 Access Key ID，#ALIBABA_CLOUD_ACCESS_KEY_SECRET 环境变量...

Schema

使用DataWorks：创建好PyODPS 2节点或PyODPS 3节点，详情请参见通过DataWorks使用PyODPS。使用本地PC环境：安装好PyODPS并初始化ODPS入口对象。基本操作当前MaxCompute Schema功能还在公测中，如果您需要使用的话，请提交新功能测试申请...

创建并使用MaxCompute资源

说明新创建的资源如果未在MaxCompute（ODPS）客户端上传过，则需勾选上传为ODPS资源，如果该资源已上传至MaxCompute（ODPS）客户端，则需取消勾选上传为ODPS资源，否则上传均会报错。通过DataWorks可视化方式创建或上传的资源，若上传时...

{"Version":"1","Statement":[{"Effect":"Allow","Action":["odps:UpdateQuota","odps:UpdateQuotaPlan","odps:UpdateSubQuotas","odps:UpdateQuotaSchedule","odps:CreateQuotaPlan","odps:DeleteQuotaPlan","odps:CreateQuotaSchedule"],...

SETPROJECT

工具平台本文中的命令您可以在 MaxCompute客户端、云命令行（odpscmd）或 DataWorks的ODPS SQL节点中执行。注意事项项目空间非工作空间。项目空间名称获取方式：登录 MaxCompute控制台，选择工作区>项目管理，项目管理页面的...

镜像管理

MaxCompute提供镜像管理功能，内置数据分析、科学计算、机器学习（如Pandas、Numpy、Scikit-learn、Xgboost）等各类常用镜像，并已对镜像进行预先加热，您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像，无需执行繁琐的镜像打包、上传...

执行

iris3=iris[iris.sepalwidth].persist('pyodps_iris_test',partitions=['name'])print(iris3.data)返回结果：odps.Table name:odps_test_sqltask_finance.`pyodps_iris` schema:sepallength:double sepalwidth:double petallength:double ...

开发ODPS MR任务

在DataWorks中，您可以通过ODPS MR节点实现MaxCompute MapReduce任务的调度运行，以及与其他作业的集成操作。使用限制 ODPS MR节点的使用限制请参见使用限制。编辑代码：简单示例以下以一个简单示例为您介绍ODPS MR节点的使用：统计wc_in...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

创建DataFrame

前提条件操作下述代码示例前，您需要先准备好示例表 pyodps_iris，详细操作请参见 Dataframe数据处理。背景信息在使用DataFrame时，您需要了解 Collection（DataFrame）、Sequence 和 Scalar 三类对象的操作。三类对象分别表示表结构...

权限问题

MaxCompute表无Download权限报错信息解决方法在DataWorks的数据地图中搜索对应的MaxCompute表，并申请开通其Download权限，运行时则可以下载相应的数据。MaxCompute表无Describe、Select等权限报错信息解决方法申请对应Project下的...

PyODPS的列运算

本文为您介绍如何进行PyODPS的列运算。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据。下载鸢尾...

查询加速（MCQA）

PyODPS。SQLAlchemy。基于MaxCompute客户端启用MCQA功能下载最新版 MaxCompute客户端（odpscmd）。安装并配置客户端，详情请参见安装并配置MaxCompute客户端。修改客户端安装目录conf下的配置文件odps_config.ini，在配置文件最后一行...

Tablestore外部表

SELECT odps_orderkey,odps_orderdate,SUM(odps_totalprice)AS sum_total FROM ots_table_external WHERE odps_orderkey>5000 AND odps_orderkey< 7000 ANDodps_orderdate>='1996-05-03' AND odps_orderdate< '1997-05-01' GROUP BYodps_...

Python SDK示例：SQL

from odps import options options.sql.settings={'odps.sql.mapper.split.size':16} o.execute_sql('select*from pyodps_iris')#会根据全局配置添加hints 读取SQL执行结果运行SQL的Instance能够直接执行 open_reader 操作读取SQL执行结果...

PyODPS节点实现避免将数据下载到本地

本文为您介绍PyODPS如何避免将数据下载到本地。背景信息 PyODPS提供了多种方便下载数据到本地的方法。因此，在设备允许的情况下，可以把数据下载到本地处理，然后再上传至MaxCompute。但是这种操作非常低效，数据下载到本地进行处理，无法...

使用限制

PyODPS限制在MaxCompute中基于DataWorks开发PyODPS作业时的使用限制如下：PyODPS节点获取本地处理的数据不能超过50 MB，节点运行时占用内存不能超过1 GB，否则节点任务会被系统中止。请避免在PyODPS任务中添加额外的Python数据处理代码。...

周期性调度作业概述

如果您希望周期性运行MaxCompute作业，可使用DataWorks的DataStudio开发周期性MaxCompute作业，并配置周期性调度的时间属性、调度依赖等配置项，将作业整体提交至DataWorks的运维中心进行周期性调度。本文为您概要介绍当前使用DataWorks...

在SQL语句中设置Flag示例

背景信息使用DataWorks或MaxCompute客户端提交SQL时，通常需要设置SQL的Flag。例如，Session级别使用MaxCompute 2.0数据类型时，需要在涉及2.0数据类型的SQL前加设置Flag的语句 set odps.sql.type.system.odps2=true;示例使用Java SDK...

大量数据导出方案

将数据同步节点和ODPS SQL节点连线配置成依赖关系，ODPS SQL节点作为数据的产出节点，数据同步节点作为数据的导出节点。工作流调度配置完成后（可以直接使用默认配置），单击运行。数据同步的运行日志，如下所示。2016-12-17 23:43:46.394...

2019年

PyODPS的排序 PyODPS的去重 PyODPS的采样 PyODPS的数据缩放 PyODPS的空值处理 2019-10-17 新增成本优化最佳实践。新实践新增成本优化最佳实践。成本优化 2019-10-09 SQL语法新增功能。新功能新增合并分区语法。新增JOIN与SETOP支持括号...

授权实践

Policy内容如下：{"Statement":[{"Action":["odps:List","odps:CreateTable","odps:CreateInstance","odps:CreateResource","odps:CreateFunction"],"Effect":"Allow","Resource":["acs:odps:*:projects/<project_name>"]},{"Action":[...

UDF开发（Java）

使用DataWorks开发调试UDF时，您需要先开通DataWorks并绑定MaxCompute项目，做好UDF开发前准备工作。操作详情请参见使用DataWorks连接。编写UDF代码。您可以在任意Java开发工具中开发UDF代码并打包为一个JAR包。您可以使用以下UDF代码示例...

管理IP白名单

部署DataWorks的设备默认在白名单内，通过DataWorks提交MaxCompute作业不受限制，您无需配置白名单。VPC网络下的IP白名单。设置VPC网络下的IP白名单时，您需要：获取VPC网络的VPC实例ID。配置VPC网络下的Endpoint。详情参见 Endpoint。添加...

用户规划与管理

相关操作由于后续涉及到需要在DataWorks上操作，在修改RAM角色的权限策略时，您需要把RAM角色同时授权给DataWorks服务，以便在DataWorks上能够提交周期性调度作业至MaxCompute。RAM角色的权限策略配置方式请参见（进阶）RAM角色授信策略。...

2024年

2024年02月29日-DataWorks独享资源组PyODPS节点升级公告尊敬的MaxCompute用户：DataWorks将于北京时间 2024年04月08日（周一）至 2024年05月30日（周四）期间，逐步升级各个地域的独享资源组，以增强PyODPS支持。本次升级的主要内容及各...

开发ODPS Script任务

DataWorks为您提供ODPS Script节点，其SQL开发模式是MaxCompute基于2.0的SQL引擎提供的脚本开发模式。本文为您介绍ODPS Script节点的使用。前提条件已创建ODPS Script节点，详情请参见创建并管理MaxCompute节点。背景信息 MaxCompute当前...

快速入门

本文以具体数据及开发场景为例，为您介绍在DataWorks数据开发的PyODPS 3节点中，如何创建和操作MaxFrame中的DataFrame对象，以及使用DataFrame完成基本的数据处理，帮助您在十分钟内快速使用MaxFrame进行开发。数据准备本文以 movielens ...

Tunnel SDK示例（Python）

Tunnel是MaxCompute的数据通道，您可以通过Tunnel向MaxCompute中上传或者下载数据，TunnelSDK是PyODPS的一部分，本文为您介绍使用Python版TunnelSDK上传下载数据的简单示例。注意事项下文为您介绍简单的上传、下载数据的Python SDK示例，...

统计MaxCompute TOPN费用账号及耗时作业

进入DataWorks数据开发界面，创建ODPS SQL节点（information_history）并配置定时调度，用于定时将数据写入备份表information_history。完成后单击左上角图标保存。创建ODPS SQL节点操作，请参见创建ODPS SQL节点。ODPS SQL节点运行的...

使用Apache Airflow调度MaxCompute

odps=ODPS(cfg.get("odps",os.getenv('ALIBABA_CLOUD_ACCESS_KEY_ID')),cfg.get("odps",os.getenv('ALIBABA_CLOUD_ACCESS_KEY_SECRET')),cfg.get("odps","project"),cfg.get("odps","endpoint"))default_args={ 'owner':'airflow','depends...

常见问题

当MaxCompute项目打开2.0新数据类型开关（odps.sql.type.system.odps2=true）时，存在隐式转换被禁用的风险，您可以关闭2.0新数据类型开关（odps.sql.type.system.odps2=false）。在MaxCompute中创建表的方式有哪些？您可以通过如下方式...

SQL脚本模式

在DataWorks中可以建立脚本模式的节点ODPS Script，示例如下。在此节点中进行脚本模式编辑，编辑完成后单击工具栏的运行图标，提交脚本到MaxCompute执行。从输出信息的Logview URL中可以查看执行计划图和结果。通过Java SDK使用脚本模式...

PageRank

PageRank算法是计算网页排名的经典算法。输入是一个有向图G，其中顶点表示网页。如果存在网页A到网页B的链接，则存在连接A到B的边。算法的基本原理如下：初始化：点值表示PageRank的rank值（DOUBLE类型）。初始时，所有点取值为 1/...

RAM权限

{"Version":"1","Statement":[{"Effect":"Allow","Action":["odps:UpdateQuota","odps:UpdateQuotaPlan","odps:UpdateSubQuotas","odps:UpdateQuotaSchedule","odps:CreateQuotaPlan","odps:DeleteQuotaPlan","odps:CreateQuotaSchedule"],...

ODPS-0123091

错误码：ODPS-0123091:Illegal type cast 错误1：in function cast,value 'xx' cannot be casted from yy to zz 错误信息示例 ODPS-0123091:Illegal type cast-in function cast,value 'xx' cannot be casted from YY to ZZ 问题描述执行...

ODPS-0130252

错误码：ODPS-0130252:Cartesian product is not allowed 错误1：cartesian product is not allowed without mapjoin 错误信息示例 ODPS-0130252:[m,n]Cartesian product is not allowed-cartesian product is not allowed without mapjoin...

DataWorks排名

新品推荐