投递odps-投递odps文档介绍内容-阿里云

Java UDAF

UDAF代码结构您可以通过IntelliJ IDEA（Maven）或 MaxCompute Studio 工具使用Java语言编写UDAF代码，代码中需要包含如下信息：Java包（Package）：可选。您可以将定义的Java类打包，为后续查找和使用类提供方便。继承UDAF类：必选。必须...

hgprecn-cn-5y*-cn-hangzhou-internal.hologres.aliyuncs.com:80/test?ApplicationName=MaxCompute¤tSchema=public&useSSL=false&table=mc_2_holo/' stored by 'com.aliyun.odps.jdbc.JdbcStorageHandler' with serdeproperties('odps....

USE

项目空间名称获取方式：登录 MaxCompute控制台，项目管理页签下的MaxCompute 项目名。MaxCompute没有提供创建和删除项目空间的命令。创建项目空间操作详情请参见创建MaxCompute项目。命令格式-进入项目空间。use;参数说明 project_name：...

配置选项

None sql.use_odps2_extension 启用MaxCompute 2.0语言扩展。False 数据上传下载配置选项说明默认值 tunnel.endpoint Tunnel的Endpoint。None tunnel.use_instance_tunnel 使用Instance Tunnel获取执行结果。True tunnel.limit_instance...

Spark常见问题

以下配置必须在DataWorks配置项/spark-defaults.conf文件中添加 spark.hadoop.odps.cupid.trusted.services.access.list=[YourBucketName].oss-[YourRegionId]-internal.aliyuncs.com 说明在MaxCompute Spark集群模式运行时只支持OSS内网...

Streaming Tunnel SDK示例（Python）

Streaming Tunnel是MaxCompute的流式数据通道，您可以通过Streaming Tunnel向MaxCompute中上传数据，本文为您介绍使用Python版Streaming Tunnel SDK上传数据的简单示例。注意事项 Streaming Tunnel仅支持上传数据，下文为您介绍一个简单的...

Java UDTF

MaxCompute Type Java Type Java Writable Type TINYINT java.lang.Byte ByteWritable SMALLINT java.lang.Short ShortWritable INT java.lang.Integer IntWritable BIGINT java.lang.Long LongWritable FLOAT java.lang.Float ...

Python SDK概述

PyODPS是MaxCompute的Python SDK，能够方便地使用Python语言与MaxCompute进行交互和数据处理。通过该SDK，可以更高效地开发MaxCompute任务、进行数据分析和管理MaxCompute资源。本文为您介绍PyODPS的使用和常见方法。PyODPS介绍 PyODPS提供...

快速入门

这些平台提供了PyODPS运行环境和调度执行的能力，无需您手动创建ODPS入口对象。PyODPS支持类似Pandas的快速、灵活和富有表现力的数据结构。您可以通过PyODPS提供的DataFrame API使用Pandas的数据结果处理功能。本文以DataWorks平台为例，...

不兼容SQL重写

MaxCompute 1.0不会报错，而MaxCompute 2.0会报如下错误信息：FAILED:ODPS-0130071:[1,15]Semantic analysis exception-while resolving view xdj.xdj_view_limit-ORDER BY must be used with a LIMIT clause generated.column.name.multi....

使用Apache Airflow调度MaxCompute

odps=ODPS(cfg.get("odps",os.getenv('ALIBABA_CLOUD_ACCESS_KEY_ID')),cfg.get("odps",os.getenv('ALIBABA_CLOUD_ACCESS_KEY_SECRET')),cfg.get("odps","project"),cfg.get("odps","endpoint"))default_args={ 'owner':'airflow','depends...

作业优先级

本文为您介绍MaxCompute的包年包月作业优先级功能，并提供开启、设置和查看作业优先级的操作指导。背景信息 MaxCompute的包年包月计算资源有限，在实际数据开发过程中，系统需要优先保障重要作业的计算资源。例如，系统必须在06:00点前产出...

获取任务执行进度示例

获取任务执行进度过程中会涉及到MaxCompute Instance、MaxCompute Task、Fuxi Job、Fuxi Task（Stage）、Fuxi Instance（Worker），关系说明如下：一个MaxCompute Instance一般对应一个MaxCompute Task。一个MaxCompute Task可以由一个或多...

管理项目连接

在IntelliJ IDEA上通过MaxCompute Studio使用MaxCompute进行数据开发前，您必须连接MaxCompute项目，才可以查看、管理MaxCompute的数据和资源。本文为您介绍如何在MaxCompute Studio创建或修改MaxCompute项目连接。步骤一：创建MaxCompute ...

使用Kettle调度MaxCompute

格式为 jdbc:odps:<MaxCompute_endpoint>?project=<MaxCompute_project_name>。配置时删除符号。参数说明如下：<MaxCompute_endpoint>：必填。MaxCompute项目所属区域的Endpoint。各地域的Endpoint信息，请参见 Endpoint。MaxCompute_...

简单下载示例

本文为您介绍如何使用MaxCompute Java SDK实现数据下载。使用TableTunnel的 DownloadSession 接口实现数据下载典型的表数据下载流程：创建TableTunnel。创建DownloadSession。创建RecordReader，读取Record。示例 import java.io....

UDF开发（Python3）

至少要包含 from odps.udf import annotate，导入函数签名模块，MaxCompute才可以识别后续代码中定义的函数签名。当UDF代码中需要引用文件资源或表资源时，需要包含 from odps.distcache import get_cache_file（文件资源）或 from odps....

使用限制

边界名边界值分类配置项名称默认值是否可配置说明 Instance内存占用[256 MB,12 GB]内存限制 odps.stage.mapper(reducer).mem 和 odps.stage.mapper(reducer).jvm.mem 2048 MB＋1024 MB 是单个Map Instance或Reduce Instance占用...

SET操作

MaxCompute支持在Session级设置MaxCompute系统变量，本文为您介绍如何设置及查看MaxCompute系统变量，影响MaxCompute的行为。set操作相关命令如下。类型功能角色操作入口 set 对当前Session设置MaxCompute系统变量。具备项目空间操作...

DataGrip连接MaxCompute

格式为 jdbc:odps:<MaxCompute_endpoint>?project=<MaxCompute_project_name>[&interactiveMode={true|false}]。配置时删除符号。参数说明如下：<MaxCompute_endpoint>：必填。MaxCompute项目所属区域的Endpoint。各地域的Endpoint信息，请...

JDBC常见问题

通过JDBC访问MaxCompute报错：ODPS-0410042:Invalid signature value，如何解决？如何设置不生成 jdbc.log 日志文件？通过JDBC访问MaxCompute报错：create download session failed:instance id=xxx,Error:ErrorCode=Local Error,...

Spark-1.x示例

cd$SPARK_HOME bin/spark-submit-master yarn-cluster-class com.aliyun.odps.spark.examples.WordCount \ /path/to/MaxCompute-Spark/spark-1.x/target/spark-examples_2.10-1.0.0-SNAPSHOT-shaded.jarMaxCompute Table读写示例（Scala）...

Python 3 UDTF

from odps.udf import annotate 用于导入函数签名模块，MaxCompute才可以识别后续代码中定义的函数签名。from odps.udf import BaseUDTF 为Python UDTF的基类，您需要通过此类在派生类中实现 process 或 close 等方法。当UDTF代码中需要...

PyODPS常见问题

使用from odps import options options.sql.settings设置MaxCompute运行环境不成功，如何解决？调用DataFrame的head方法时，报错IndexError:listindexoutofrange，是什么原因？上传Pandas DataFrame至MaxCompute时，报错ODPSError，如何...

Spark-2.x示例

cd$SPARK_HOME bin/spark-submit-master yarn-cluster-class \ com.aliyun.odps.spark.examples.WordCount \ /path/to/MaxCompute-Spark/spark-2.x/target/spark-examples_2.11-1.0.0-SNAPSHOT-shaded.jarMaxCompute Table读写示例（Scala）...

Instance Logview示例

本文为您介绍如何使用MaxCompute Java SDK生成Instance Logview链接。Instance Logview可以帮助您快速定位问题。背景信息您可以通过Logview查看和Debug提交的MaxCompute作业，详情请参见使用Logview查看作业运行信息。MaxCompute Java ...

DBeaver连接MaxCompute

在通用JDBC连接设置对话框的常规页签单击编辑驱动设置后，在编辑驱动对话框的库页签，通过添加文件方式将MaxCompute JDBC驱动JAR包 odps-jdbc-3.2.9-jar-with-dependencies.jar 关联到数据源的驱动库（Libraries）中。...

Spark访问湖仓一体外部数据源

MaxCompute Spark目前已支持访问湖仓一体外部数据源，若您想将数据处理作业的环境从Spark更换为MaxCompute，无需再迁移Spark作业数据到MaxCompute，可直接进行访问，从而降低使用成本。本文为您介绍使用MaxCompute访问外部数据源的示例。...

准备工作

from odps import_version_as odps_version from mars import_version_as mars_version print(odps_version)print(mars_version)odps_version 为PyODPS版本，要求PyODPS为0.9.3.1以上版本。mars_version 为Mars版本，要求Mars为0.4.4以上...

使用SQL管理外部项目

打开Hive兼容模式后，MaxCompute才支持Hive指定的各种语法 set odps.sql.hive.compatible=true;通过OSS分片上传功能将数据写入OSS set odps.sql.unstructured.oss.commit.mode=true;支持通过如下语句全project 默认打开该功能 setproject ...

通过控制台（新版）管理用户权限

{"Statement":[{"Action":["odps:CreateTable","odps:CreateInstance","odps:List"],"Effect":"Allow","Resource":["acs:odps:*:projects/project_name"]},{"Action":["odps:Describe","odps:Select"],"Effect":"Allow","Resource":["acs:...

合并小文件

但MaxCompute同时提供一些参数完成定制需求，常用的一些参数如下：set odps.merge.cross.paths=true|false 设置是否跨路径合并，对于表下面有多个分区的情况，合并过程会将多个分区生成独立的MergeAction进行合并，所以对于 odps.merge....

Python SDK常见问题

使用from odps import options options.sql.settings设置MaxCompute运行环境不成功，如何解决？调用DataFrame的head方法时，报错IndexError:listindexoutofrange，是什么原因？上传Pandas DataFrame至MaxCompute时，报错ODPSError，如何...

统计MaxCompute TOPN费用账号及耗时作业

说明如果需要同时对多个MaxCompute项目的元数据进行统计分析，您可以创建多个ODPS SQL节点，将这些MaxCompute项目的元数据写入到同一张数据备份表中。步骤四：创建统计TOPN费用账号及耗时作业 TASKS_HISTORY视图中的settings会记录上层...

UDAF概述

MaxCompute支持您通过Java、Python语言编写代码创建UDAF，扩展MaxCompute的函数能力，满足个性化业务需求。本文为您介绍UDAF类型、使用限制、注意事项、开发流程及使用说明等信息。背景信息 UDAF为用户自定义聚合函数，适用于多进一出业务...

使用说明

product=MaxCompute/ODPS jdbc version=3,0 inspecting table:jdbc_test key BIGINT(-5)value STRING(12)更新表 import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException;import java.sql.Statement;...

使用Kafka（离线与实时）

Kafka数据写入MaxCompute流程：阿里云全托管Kafka MaxCompute与消息队列Kafka版服务紧密集成，借助消息队列Kafka版服务的MaxCompute Sink Connector，无需第三方工具及二次开发，即可满足将指定Topic数据持续导入MaxCompute数据表的需求，...

SQL脚本模式

当您面对大数据集的ETL任务、自动化定期任务、复杂查询编排等场景时，可以使用MaxCompute当前SQL引擎支持的脚本模式（Script Mode SQL）。在脚本模式下，一个多语句的SQL脚本文件将被作为一个整体进行编译，无需对单个语句进行编译；提交...

Yonghong BI连接MaxCompute

格式为 jdbc:odps:<MaxCompute_endpoint>?project=<MaxCompute_project_name>[&interactiveMode={true|false}]。配置时删除符号。参数说明如下：<MaxCompute_endpoint>：必填。MaxCompute项目所属区域的Endpoint。各地域的Endpoint信息，请...

投递odps

新品推荐