数据动态脱敏

DataWorks基础版暂时无法使用此功能,如您的DataWorks为基础版,请升级DataWorks为合适版本。详情请参见 DataWorks各版本详解。仅华北2(北京)、华东2(上海)、华东1(杭州)、西南1(成都)、华南1(深圳)、华北2(北京政务云)、华东2...

配置选项

您可以通过 odps.options 获得PyODPS提供的配置选项。from odps import options#设置所有输出表的生命周期(lifecycle选项)。options.lifecycle=30#使用Tunnel下载string类型时使用bytes(tunnel.string_as_binary选项)。options.tunnel....

作业优先级

Odps odps=new Odps(account);公共云URL。String odpsUrl="http://service.odps.aliyun.com/api";odps.setEndpoint(odpsUrl);odps.setDefaultProject("xxxxxxxxxx");SQLTask task=new SQLTask();task.setName("adhoc_sql_task_1");task....

Spark常见问题

DataWorks ODPS Spark节点中选择jar、file、archive资源。说明 该方案在任务运行时会上传资源,对于较大资源建议采用方案一进行引用。如何访问VPC?当前MaxCompute Spark支持以下两种方式来访问阿里云VPC中的服务:反向访问方式 使用限制...

ODPS-0123144

错误码:ODPS-0123144:Fuxi job failed 错误1:kInstanceMonitorTimeout(errCode:252)at Odps/xxx/xxx.Detail error msg:CRASH_EXIT,usually caused by bad udf performance.错误信息 ODPS-0123144:Fuxi job failed-...

数据类型版本说明

查看 odps.sql.type.system.odps2、odps.sql.decimal.odps2、odps.sql.hive.compatible 属性判断当前项目的数据类型版本。修改项目的数据类型版本 如果发现项目当前选择的数据类型版本不能满足业务需求,可以修改数据类型版本。项目管理员...

PyODPS API概述

本文为您提供了PyODPS API文档链接,其中包含各函数的参数说明及示例。ODPS详解(Definitions)PyODPS DataFrame指南(DataFrame Reference)

常见问题

区分二者的方式如下:DataWorks工作空间:登录 DataWorks控制台,在左侧导航栏,单击 工作空间列表,此处您看到的是DataWorks工作空间。MaxCompute项目:登录 MaxCompute控制台,在左侧导航栏选择 工作区>项目管理,查看MaxCompute项目名称...

Python SDK概述

PyODPS是MaxCompute的Python SDK,能够方便地使用Python语言与MaxCompute进行交互和数据处理。通过该SDK,可以更高效地开发MaxCompute任务、进行数据分析和管理MaxCompute资源。本文为您介绍PyODPS的使用和常见方法。PyODPS介绍 PyODPS提供...

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化,为了更直观地反应整个过程,您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件 和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

实现指定用户访问特定UDF最佳实践

{"Version":"1","Statement"[{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:projects/sz_mc/resources/getaddr.jar"},{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:...

开发ODPS SQL任务

DataWorks为您提供ODPS SQL节点,可用于周期性调度MaxCompute的SQL任务,并完成与其他类型节点的集成和联合调度。MaxCompute SQL任务采用类似SQL的语法,适用于海量数据(TB级)但实时性要求不高的分布式处理场景。本文为您介绍在DataWorks...

合并小文件

PyODPS脚本合并 通过PyODPS异步提交任务,合并前一天任务产出的小文件,脚本示例如下:import os from odps import ODPS#确保 ALIBABA_CLOUD_ACCESS_KEY_ID 环境变量设置为用户 Access Key ID,#ALIBABA_CLOUD_ACCESS_KEY_SECRET 环境变量...

RAM权限策略管理

{"Version":"1","Statement":[{"Effect":"Allow","Action":["odps:UpdateQuota","odps:UpdateQuotaPlan","odps:UpdateSubQuotas","odps:UpdateQuotaSchedule","odps:CreateQuotaPlan","odps:DeleteQuotaPlan","odps:CreateQuotaSchedule"],...

SETPROJECT

工具平台 本文中的命令您可以在 MaxCompute客户端、云命令行(odpscmd)或 DataWorksODPS SQL节点 中执行。注意事项 项目空间非工作空间。项目空间名称获取方式:登录 MaxCompute控制台,选择 工作区>项目管理,项目管理 页面的...

镜像管理

MaxCompute提供镜像管理功能,内置数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等各类常用镜像,并已对镜像进行预先加热,您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像,无需执行繁琐的镜像打包、上传...

执行

iris3=iris[iris.sepalwidth].persist('pyodps_iris_test',partitions=['name'])print(iris3.data)返回结果:odps.Table name:odps_test_sqltask_finance.`pyodps_iris` schema:sepallength:double sepalwidth:double petallength:double ...

开发ODPS MR任务

DataWorks中,您可以通过ODPS MR节点实现MaxCompute MapReduce任务的调度运行,以及与其他作业的集成操作。使用限制 ODPS MR节点的使用限制请参见 使用限制。编辑代码:简单示例 以下以一个简单示例为您介绍ODPS MR节点的使用:统计wc_in...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

创建DataFrame

前提条件 操作下述代码示例前,您需要先准备好示例表 pyodps_iris,详细操作请参见 Dataframe数据处理。背景信息 在使用DataFrame时,您需要了解 Collection(DataFrame)、Sequence 和 Scalar 三类对象的操作。三类对象分别表示表结构...

权限问题

MaxCompute表无Download权限 报错信息 解决方法 在DataWorks的 数据地图 中搜索对应的MaxCompute表,并申请开通其Download权限,运行时则可以下载相应的数据。MaxCompute表无Describe、Select等权限 报错信息 解决方法 申请对应Project下的...

Tablestore外部表

SELECT odps_orderkey,odps_orderdate,SUM(odps_totalprice)AS sum_total FROM ots_table_external WHERE odps_orderkey>5000 AND odps_orderkey< 7000 ANDodps_orderdate>='1996-05-03' AND odps_orderdate< '1997-05-01' GROUP BYodps_...

Python SDK示例:SQL

from odps import options options.sql.settings={'odps.sql.mapper.split.size':16} o.execute_sql('select*from pyodps_iris')#会根据全局配置添加hints 读取SQL执行结果 运行SQL的Instance能够直接执行 open_reader 操作读取SQL执行结果...

PyODPS节点实现避免将数据下载到本地

本文为您介绍PyODPS如何避免将数据下载到本地。背景信息 PyODPS提供了多种方便下载数据到本地的方法。因此,在设备允许的情况下,可以把数据下载到本地处理,然后再上传至MaxCompute。但是这种操作非常低效,数据下载到本地进行处理,无法...

在SQL语句中设置Flag示例

背景信息 使用DataWorks或MaxCompute客户端提交SQL时,通常需要设置SQL的Flag。例如,Session级别使用MaxCompute 2.0数据类型时,需要在涉及2.0数据类型的SQL前加设置Flag的语句 set odps.sql.type.system.odps2=true;示例 使用Java SDK...

大量数据导出方案

将数据同步节点和ODPS SQL节点连线配置成依赖关系,ODPS SQL节点作为数据的产出节点,数据同步节点作为数据的导出节点。工作流调度配置完成后(可以直接使用默认配置),单击 运行。数据同步的运行日志,如下所示。2016-12-17 23:43:46.394...

授权实践

Policy内容如下:{"Statement":[{"Action":["odps:List","odps:CreateTable","odps:CreateInstance","odps:CreateResource","odps:CreateFunction"],"Effect":"Allow","Resource":["acs:odps:*:projects/<project_name>"]},{"Action":[...

UDF开发(Java)

使用DataWorks开发调试UDF时,您需要先开通DataWorks并绑定MaxCompute项目,做好UDF开发前准备工作。操作详情请参见 使用DataWorks连接。编写UDF代码。您可以在任意Java开发工具中开发UDF代码并打包为一个JAR包。您可以使用以下UDF代码示例...

管理IP白名单

部署DataWorks的设备默认在白名单内,通过DataWorks提交MaxCompute作业不受限制,您无需配置白名单。VPC网络下的IP白名单。设置VPC网络下的IP白名单时,您需要:获取VPC网络的VPC实例ID。配置VPC网络下的Endpoint。详情参见 Endpoint。添加...

用户规划与管理

相关操作 由于后续涉及到需要在DataWorks上操作,在修改RAM角色的权限策略时,您需要把RAM角色同时授权给DataWorks服务,以便在DataWorks上能够提交周期性调度作业至MaxCompute。RAM角色的权限策略配置方式请参见(进阶)RAM角色授信策略。...

开发ODPS Script任务

DataWorks为您提供ODPS Script节点,其SQL开发模式是MaxCompute基于2.0的SQL引擎提供的脚本开发模式。本文为您介绍ODPS Script节点的使用。前提条件 已创建ODPS Script节点,详情请参见 创建并管理MaxCompute节点。背景信息 MaxCompute当前...

Tunnel SDK示例(Python)

Tunnel是MaxCompute的数据通道,您可以通过Tunnel向MaxCompute中上传或者下载数据,TunnelSDK是PyODPS的一部分,本文为您介绍使用Python版TunnelSDK上传下载数据的简单示例。注意事项 下文为您介绍简单的上传、下载数据的Python SDK示例,...

统计MaxCompute TOPN费用账号及耗时作业

进入DataWorks数据开发界面,创建ODPS SQL节点(information_history)并配置定时调度,用于定时将数据写入备份表information_history。完成后单击左上角 图标保存。创建ODPS SQL节点操作,请参见 创建ODPS SQL节点。ODPS SQL节点运行的...

使用Apache Airflow调度MaxCompute

odps=ODPS(cfg.get("odps",os.getenv('ALIBABA_CLOUD_ACCESS_KEY_ID')),cfg.get("odps",os.getenv('ALIBABA_CLOUD_ACCESS_KEY_SECRET')),cfg.get("odps","project"),cfg.get("odps","endpoint"))default_args={ 'owner':'airflow','depends...

常见问题

当MaxCompute项目打开2.0新数据类型开关(odps.sql.type.system.odps2=true)时,存在隐式转换被禁用的风险,您可以关闭2.0新数据类型开关(odps.sql.type.system.odps2=false)。在MaxCompute中创建表的方式有哪些?您可以通过如下方式...

SQL脚本模式

DataWorks中可以建立脚本模式的节点ODPS Script,示例如下。在此节点中进行脚本模式编辑,编辑完成后单击工具栏的 运行 图标,提交脚本到MaxCompute执行。从输出信息的Logview URL中可以查看执行计划图和结果。通过Java SDK使用脚本模式...

RAM权限

{"Version":"1","Statement":[{"Effect":"Allow","Action":["odps:UpdateQuota","odps:UpdateQuotaPlan","odps:UpdateSubQuotas","odps:UpdateQuotaSchedule","odps:CreateQuotaPlan","odps:DeleteQuotaPlan","odps:CreateQuotaSchedule"],...

ODPS-0123091

错误码:ODPS-0123091:Illegal type cast 错误1:in function cast,value 'xx' cannot be casted from yy to zz 错误信息示例 ODPS-0123091:Illegal type cast-in function cast,value 'xx' cannot be casted from YY to ZZ 问题描述 执行...

ODPS-0130252

错误码:ODPS-0130252:Cartesian product is not allowed 错误1:cartesian product is not allowed without mapjoin 错误信息示例 ODPS-0130252:[m,n]Cartesian product is not allowed-cartesian product is not allowed without mapjoin...

MapReduce错误码(ODPS-07CCCCX)

ODPS-07CCCCX:通用描述-上下文相关说明 MapReduce错误包含META(CCCC段为1000~1999)、PARSER(CCCC段为2000~2999)、INTERNAL(CCCC段为3000~3999)模块错误。具体错误码列表如下。错误码 模块 严重等级 触发条件 处理方法 ODPS-0720001:...
共有103条 < 1 2 3 4 ... 103 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
大数据开发治理平台 DataWorks 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构 对象存储
新人特惠 爆款特惠 最新活动 免费试用