使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时,您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

RAM权限

{"Version":"1","Statement":[{"Effect":"Allow","Action":["odps:UpdateQuota","odps:UpdateQuotaPlan","odps:UpdateSubQuotas","odps:UpdateQuotaSchedule","odps:CreateQuotaPlan","odps:DeleteQuotaPlan","odps:CreateQuotaSchedule"],...

SET

odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数,优先级低于 odps.stage.mapper.split.size、odps.stage.reducer.mem 和 odps.stage.joiner.num 属性。说明 SQL语句中使用Limit,会限制Limit作用的Worker单并发运行。因此在...

PyODPS的排序

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))#排序 print iris.sort('sepalwidth').head(5)#降序排列两种方式#设置参数ascending=False;进行降序排列 print iris.sort('sepalwidth',ascending=False).head(5...

开发ODPS MR任务

DataWorks中,您可以通过ODPS MR节点实现MaxCompute MapReduce任务的调度运行,以及与其他作业的集成操作。使用限制 ODPS MR节点的使用限制请参见 使用限制。编辑代码:简单示例 以下以一个简单示例为您介绍ODPS MR节点的使用:统计wc_in...

ODPS-0123144

错误码:ODPS-0123144:Fuxi job failed 错误1:kInstanceMonitorTimeout(errCode:252)at Odps/xxx/xxx.Detail error msg:CRASH_EXIT,usually caused by bad udf performance.错误信息 ODPS-0123144:Fuxi job failed-...

数据类型版本说明

查看 odps.sql.type.system.odps2、odps.sql.decimal.odps2、odps.sql.hive.compatible 属性判断当前项目的数据类型版本。修改项目的数据类型版本 如果发现项目当前选择的数据类型版本不能满足业务需求,可以修改数据类型版本。项目管理员...

SETPROJECT

工具平台 本文中的命令您可以在 MaxCompute客户端、云命令行(odpscmd)或 DataWorksODPS SQL节点 中执行。注意事项 项目空间非工作空间。项目空间名称获取方式:登录 MaxCompute控制台,选择 工作区>项目管理,项目管理 页面的...

Spark Connector

在Spark的 conf 目录下创建 spark-defaults.conf 文件:cd$SPARK_HOME/conf vim spark-defaults.conf 文件内容示例如下:#在spark-defaults.conf配置账号 spark.hadoop.odps.project.name=doc_test spark.hadoop.odps.access.id=L*spark....

PyODPS API概述

本文为您提供了PyODPS API文档链接,其中包含各函数的参数说明及示例。ODPS详解(Definitions)PyODPS DataFrame指南(DataFrame Reference)

Python SDK概述

PyODPS是MaxCompute的Python SDK,能够方便地使用Python语言与MaxCompute进行交互和数据处理。通过该SDK,可以更高效地开发MaxCompute任务、进行数据分析和管理MaxCompute资源。本文为您介绍PyODPS的使用和常见方法。PyODPS介绍 PyODPS提供...

Davinci连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入Davinci,您只需在可视化UI界面上简单配置即可服务多种数据可视化应用。本文为您介绍如何通过MaxCompute JDBC驱动,连接Davinci和MaxCompute项目,并进行可视化数据分析。背景信息 Davinci是面向...

Flag参数列表

ALL 调度 Session odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数,优先级低于 odps.stage.mapper.split.size、odps.stage.reducer.mem 和 odps.stage.joiner.num 属性。说明 SQL语句中使用Limit,会限制Limit作用的Worker单...

运行安全命令示例

SecurityManager类在odps-sdk-core包中,因此在使用时需要执行如下配置。groupId>com.aliyun.odps</groupId><artifactId>odps-sdk-core</artifactId><version>X.X.X-public</version></dependency>您可以在 search.maven.org ...

Tablestore外部表

SELECT odps_orderkey,odps_orderdate,SUM(odps_totalprice)AS sum_total FROM ots_table_external WHERE odps_orderkey>5000 AND odps_orderkey< 7000 ANDodps_orderdate>='1996-05-03' AND odps_orderdate< '1997-05-01' GROUP BYodps_...

RAM权限策略管理

{"Version":"1","Statement":[{"Effect":"Allow","Action":["odps:UpdateQuota","odps:UpdateQuotaPlan","odps:UpdateSubQuotas","odps:UpdateQuotaSchedule","odps:CreateQuotaPlan","odps:DeleteQuotaPlan","odps:CreateQuotaSchedule"],...

开发ODPS SQL任务

DataWorks为您提供ODPS SQL节点,可用于周期性调度MaxCompute的SQL任务,并完成与其他类型节点的集成和联合调度。MaxCompute SQL任务采用类似SQL的语法,适用于海量数据(TB级)但实时性要求不高的分布式处理场景。本文为您介绍在DataWorks...

统计MaxCompute TOPN费用账号及耗时作业

{datetime1} 为DataWorks的调度参数,您需要在ODPS SQL节点右侧,单击 调度配置,在 基础属性 区域配置 参数 值为 datetime1=${yyyymmdd}。说明 如果需要同时对多个MaxCompute项目的元数据进行统计分析,您可以创建多个ODPS SQL节点,将...

项目空间操作

odps.table.lifecycle 设置项目空间下的表是否需要配置生命周期。optional:创建表时,Lifecycle子句为可选设置,如果不设置表的生命周期,则该表永久有效。mandatory:Lifecycle子句为必选设置,用户必须设置表的生命周期。inherit:创建...

MaxCompute如何访问Hologres

配置以下配置项 spark.hadoop.odps.project.name=<MaxCompute_Project_Name>spark.hadoop.odps.end.point=<Endpoint>spark.hadoop.odps.runtime.end.point=<VPC_Endpoint>spark.hadoop.odps.access.id=<AccessKey_ID>spark.hadoop.odps....

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化,为了更直观地反应整个过程,您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件 和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

通过控制台(新版)管理用户权限

{"Statement":[{"Action":["odps:CreateTable","odps:CreateInstance","odps:List"],"Effect":"Allow","Resource":["acs:odps:*:projects/project_name"]},{"Action":["odps:Describe","odps:Select"],"Effect":"Allow","Resource":["acs:...

PyODPS支持对MaxCompute表的基本操作,包括创建表、创建表的Schema、同步表更新、获取表数据、删除表、表分区操作以及如何将表转换为DataFrame对象。背景信息 PyODPS提供对MaxCompute表的基本操作方法。操作 说明 基本操作 列出项目空间下...

Python SDK示例:SQL

from odps import options options.sql.settings={'odps.sql.mapper.split.size':16} o.execute_sql('select*from pyodps_iris')#会根据全局配置添加hints 读取SQL执行结果 运行SQL的Instance能够直接执行 open_reader 操作读取SQL执行结果...

开发ODPS Script任务

DataWorks为您提供ODPS Script节点,其SQL开发模式是MaxCompute基于2.0的SQL引擎提供的脚本开发模式。本文为您介绍ODPS Script节点的使用。前提条件 已创建ODPS Script节点,详情请参见 创建并管理MaxCompute节点。背景信息 MaxCompute当前...

合并小文件

PyODPS脚本合并 通过PyODPS异步提交任务,合并前一天任务产出的小文件,脚本示例如下:import os from odps import ODPS#确保 ALIBABA_CLOUD_ACCESS_KEY_ID 环境变量设置为用户 Access Key ID,#ALIBABA_CLOUD_ACCESS_KEY_SECRET 环境变量...

执行

iris3=iris[iris.sepalwidth].persist('pyodps_iris_test',partitions=['name'])print(iris3.data)返回结果:odps.Table name:odps_test_sqltask_finance.`pyodps_iris` schema:sepallength:double sepalwidth:double petallength:double ...

SQL错误码(ODPS-01CCCCX)

FAILED:ODPS-0130071:[1,27]Semantic analysis exception-TIMESTAMP type is not enabled in current mode.Please set odps.sql.type.system.odps2=true to use it.产生原因:SQL语句中使用的内建函数涉及2.0数据类型(TINYINT、SMALLINT、...

项目管理(新版)

是否需配置生命周期 设置项目空间下的表是否需要配置生命周期,即为设置 odps.table.lifecycle 属性,有如下取值。optional:创建表时,Lifecycle子句为可选设置,如果不设置表的生命周期,则该表永久有效。mandatory:Lifecycle子句为必选...

多线程上传示例

本文通过代码示例向您介绍如何使用TableTunnel接口实现多线程上传。import java.io.IOException;import java.util.ArrayList;...如果不指定,默认按照ODPS Endpoint对应的Tunnel Endpoint(或配置的 独享资源组)进行下载。

快速入门

注意事项 如果您使用Maven开发MapReduce程序,可以从 Maven库 中搜索 odps-sdk-mapred、odps-sdk-commons 和 odps-sdk-core 获取不同版本的Java SDK,pom.xml文件需要配置的依赖信息如下。groupId>com.aliyun.odps</groupId>...

镜像管理

MaxCompute提供镜像管理功能,内置数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等各类常用镜像,并已对镜像进行预先加热,您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像,无需执行繁琐的镜像打包、上传...

计算资源使用

例如,DataWorks的调度任务发起补数据作业固定会传参数 SKYNET_DAGTYPE:3 到 作业Settings 里,那么可以配置Quota规则如下:创建一个Quota命名为 refill,对 refill Quota配置规则,如果目标是:所有DataWorks的调度发起的补数据作业都默认...

简单下载示例

您也可以根据业务需要,保存到配置文件里/强烈建议不要把 AccessKey 和 AccessKeySecret 保存到代码里,会存在密钥泄漏风险 private static String accessId=System.getenv("ALIBABA_CLOUD_ACCESS_KEY_ID");private static String ...

使用限制

边界名 边界值 分类 配置项名称 默认值 是否可配置 说明 Instance内存占用[256 MB,12 GB]内存限制 odps.stage.mapper(reducer).mem 和 odps.stage.mapper(reducer).jvm.mem 2048 MB+1024 MB 是 单个Map Instance或Reduce Instance占用...

创建并使用自定义函数

DataWorks支持您可视化创建与管理MaxCompute自定义函数,您可通过 MaxCompute的SQL命令创建与管理MaxCompute函数,也可使用DataWorks的可视化方式注册。本文为您介绍如何使用DataWorks可视化方式创建与使用MaxCompute自定义函数。前提条件 ...

创建DataFrame

前提条件 操作下述代码示例前,您需要先准备好示例表 pyodps_iris,详细操作请参见 Dataframe数据处理。背景信息 在使用DataFrame时,您需要了解 Collection(DataFrame)、Sequence 和 Scalar 三类对象的操作。三类对象分别表示表结构...

UDF开发(Java)

使用DataWorks开发调试UDF时,您需要先开通DataWorks并绑定MaxCompute项目,做好UDF开发前准备工作。操作详情请参见 使用DataWorks连接。编写UDF代码。您可以在任意Java开发工具中开发UDF代码并打包为一个JAR包。您可以使用以下UDF代码示例...

权限问题

MaxCompute表无Download权限 报错信息 解决方法 在DataWorks的 数据地图 中搜索对应的MaxCompute表,并申请开通其Download权限,运行时则可以下载相应的数据。MaxCompute表无Describe、Select等权限 报错信息 解决方法 申请对应Project下的...

Spark-2.x示例

本文为您介绍Spark-2.x依赖的配置以及Spark-2.x示例说明。配置Spark-2.x的依赖 通过MaxCompute提供的Spark客户端提交应用时,需要在 pom.xml 文件中添加以下依赖。pom.xml 文件请参见 pom.xml。spark.version>2.3.0...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
大数据开发治理平台 DataWorks 云服务器 ECS 阿里邮箱 弹性公网IP 商标服务 短信服务
新人特惠 爆款特惠 最新活动 免费试用