PyODPS概述

PyODPS是MaxCompute的Python版本的SDK。提供简单方便的Python编程接口,以便您使用Python编写MaxCompute作业、查询MaxCompute表和视图,以及管理MaxCompute资源。PyODPS提供了与ODPS命令行工具类似的功能,例如上传和下载文件、创建表、...

UDTF概述

MaxCompute支持您通过Java、Python语言编写代码创建UDTF,扩展MaxCompute的函数能力,满足个性化业务需求。本文为您介绍UDTF类型、使用限制、注意事项、开发流程及使用说明等信息。背景信息 UDTF为用户自定义表值函数,适用于一进多出业务...

Tunnel SDK示例(Python)

Tunnel是MaxCompute的数据通道,您可以通过Tunnel向MaxCompute中上传或者下载数据,TunnelSDK是PyODPS的一部分,本文为您介绍使用Python版TunnelSDK上传下载数据的简单示例。注意事项 下文为您介绍简单的上传、下载数据的Python SDK示例,...

开发Python UDF

前提条件 您必须完成以下操作:管理项目连接 配置Python开发环境 开发Python UDF 在 Project 区域 MaxCompute Studio 目录下,右键单击 scripts,选择 New>MaxCompute Python。在 Create new MaxCompute python class 对话框中输入类名 ...

DESC FUNCTION

Name my_lower Owner ALIYUN$Created Time 2020-06-18 15:50:19 Class org.alidata.odps.udf.examples.Lower Resources project_name/my_lower.jar 相关命令 FUNCTION:如果您不需要把SQL语言定义函数存入MaxCompute的Meta系统,可以使用...

开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型,您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发,PyODPS集成了MaxCompute的Python SDK。支持您在DataWorks的PyODPS 2节点上直接编辑Python代码,操作MaxCompute。前提条件 已创建PyODPS 2节点,详情...

PyODPS节点实现结巴中文分词

背景信息 DataWorks为您提供PyODPS节点,您可以在DataWorks的PyODPS节点上直接编辑Python代码,并使用MaxCompute的Python SDK。DataWorks的PyODPS节点包括PyODPS 2节点和PyODPS 3节点,建议您使用PyODPS 3节点,详情请参见 开发PyODPS 3...

Schema

Schema是MaxCompute介于项目和表、资源、函数之间的概念,对表、资源、函数进行进一步归类。本文为您介绍Schema的基本操作。前提条件:准备运行环境 PyODPS支持在DataWorks的PyODPS节点或本地PC环境中运行,运行前您需先选择运行工具并准备...

PyODPS使用第三方包

您需要将 packages.tar.gz 替换成目标包所在的路径和文件名:import os from odps import ODPS#确保 ALIBABA_CLOUD_ACCESS_KEY_ID 环境变量设置为用户 Access Key ID,#ALIBABA_CLOUD_ACCESS_KEY_SECRET 环境变量设置为用户 Access Key ...

公告

2023年12月15日-MaxCompute项目生命周期流程改造公告 尊敬的MaxCompute用户:感谢您对云原生大数据计算服务MaxCompute的支持,MaxCompute从北京时间 2023年12月25日(周一)开始陆续对各个地域(Region)的项目生命周期进行改造升级,如果...

租户级别角色授权

{"Statement":[{"Action":["odps:CreateNetworkLink","odps:List","odps:Execute"],"Effect":"Allow","Resource":["acs:odps:*:networklinks/*"]},{"Action":["odps:Usage"],"Effect":"Allow","Resource":["acs:odps:*:regions/*/quotas/*...

镜像管理

MaxCompute提供镜像管理功能,内置数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等各类常用镜像,并已对镜像进行预先加热,您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像,无需执行繁琐的镜像打包、上传...

功能特性

Hologres外部表 RDS外部表 可通过MaxCompute将数据加载至RDS的表中。RDS外部表 HBase外部表 MaxCompute支持通过创建HBase外部表来关联阿里云HBase标准版或增强版集群中的表。HBase外部表 开发和分析工具 根据业务需要用户可选择连接...

2019年

查看账单详情 2019-05-24 新增MaxCompute的ACID语义说明。新说明 当遇到并发写入时,MaxCompute会根据ACID进行并发写的保障。ACID语义、Upload、命令格式 2019-05-13 更新Spark开发指南。新示例 新增Java、Scala和PySpark开发示例。搭建...

外部表概述

MaxCompute的非结构化框架支持通过INSERT方式将MaxCompute的数据直接输出到OSS,请参见 将数据写入OSS。处理各种开源格式数据,请参见 支持开源格式数据。相关文档 MaxCompute支持OSS、Hologres及RDS等多种外部表,具体请参见 OSS外部表、...

1.0数据类型版本

2L,ARRAY('x','y'))STRUCT STRUCT,BIGINT,'y',BIGINT>STRUCT,BIGINT,'field2',ARRAY,'field3',MAP<BIGINT>>NAMED_STRUCT('x',1,'y',2)NAMED_STRUCT('field1',100L,'field2',ARRAY(1,2),'field3',MAP(1,100,2,200))说明 MaxCompute的复杂...

创建并使用MaxCompute

您可通过MaxCompute的SQL语句及DataWorks提供的可视化方式,创建与管理MaxCompute表。相比SQL方式,可视化方式操作更加便捷。本文为您介绍如何使用可视化方式创建及管理MaxCompute表。前提条件 在 工作空间配置 页面绑定MaxCompute引擎后,...

基于Flink创建MaxCompute Paimon外表

'maxcompute.endpoint'='<maxcompute endpoint>','maxcompute.accessid'='<maxcompute access id>','maxcompute.accesskey'='<maxcompute access key>','maxcompute.project'='<maxcompute project>','maxcompute.oss.endpoint'='...

MaxCompute后付费消费突增排查

在使用MaxCompute开发过程中会产生费用,如果平时每日消费比较平稳,某段时间的费用增长翻倍。在排除业务增长的情况下,可以进行费用分析,排查导致费用突增的项目、作业是哪些,进而及时优化和调整作业,优化成本。本文为您介绍如何结合...

MAP_CONCAT

说明 MaxCompute的行为实现优先以函数中 mapDupKeyPolicy 的取值为准,当函数未配置 mapDupKeyPolicy 时,以 odps.sql.map.key.dedup.policy 参数的取值为准。a、b:必填。MAP对象。多个MAP对象的参数数据类型必须一致。map,V>中的 K、V ...

ALLOW PROJECT

您可以登录 MaxCompute控制台,左上角切换地域后,即可在 项目管理 页签获取具体的MaxCompute项目名称。package_name 是 指定Package的名称。您可以通过 MaxCompute客户端 执行 show packages;命令获取已创建的Package信息。number 否 用于...

配额

配额(Quota)是MaxCompute的计算资源池,为MaxCompute SQL、MapReduce、Spark、Mars、PAI等计算作业提供所需计算资源(CPU及内存)。您可以根据实际业务合理设置配额组,确保资源的合理分配和利用,防止某一部分任务占用过多资源而影响...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能,将 云消息队列 Kafka 版 集群上的数据迁移至阿里云大数据计算服务MaxCompute,方便您对离线数据进行分析加工。前提条件 在开始本教程前,确保您在同一地域中已完成以下操作:云消息队列 Kafka 版 ...

MaxCompute TIMESTAMP_NTZ数据类型介绍

MaxCompute Project时区默认是中国的东八区(Asia/Shanghai),通过以下命令返回的odps.sql.timezone属性,确认前时区 setproject;若当前项目非东八区,执行以下代码 SET odps.sql.timezone=Asia/Shanghai;定义包含TIMESTAMP字段类型的表 ...

MapOnly示例

对于MapOnly的作业,Map直接将,Value>信息输出到MaxCompute的表中。您只需要指定输出表即可,无需指定Map输出的Key/Value元信息。测试准备 准备好测试程序的JAR包,假设名字为 mapreduce-examples.jar,本地存放路径为 data\resources。...

管理项目数据

本文为您介绍如何在MaxCompute Studio上查看项目空间中的表、视图、函数和资源。前提条件 已连接MaxCompute项目,详情请参见 管理项目连接。背景信息 您可以在 Project Explorer 区域查看已添加连接的MaxCompute项目中的表、视图、函数和...

DISALLOW PROJECT

您可以登录 MaxCompute控制台,左上角切换地域后,即可在 项目管理 页签获取具体的MaxCompute项目名称。package_name 是 指定Package的名称。您可以通过 MaxCompute客户端 执行 show packages;命令获取已创建的Package信息。使用示例 撤销...

ADD ACCOUNTPROVIDER

使用限制 本文中的命令您需要在 MaxCompute客户端 执行。本命令为CMD命令,仅支持在客户端(odpscmd)工具中运行。注意事项 项目空间非工作空间。项目空间名称获取方式:登录 MaxCompute控制台,选择 工作区>项目管理,项目管理 页面的...

其他运维常见问题

您可以使用MaxCompute的 list resources;命令查看项目中存在的资源包信息。如何查看MaxCompute项目的存储资源使用量?您可以通过 MaxCompute管家 查看项目的存储资源使用情况。您可以查看如下信息:当前存储量:指定配额组下的全部项目在...

MAP_FROM_ENTRIES

说明 MaxCompute的行为实现优先以函数中 mapDupKeyPolicy 的取值为准,当函数未配置 mapDupKeyPolicy 时,以 odps.sql.map.key.dedup.policy 参数的取值为准。输入为STRUCT类型的数据。其中:K 对应生成MAP的Key值,V 对应生成MAP的Value值...

TPC-DS性能测试

MaxCompute适用于TB、PB和EB等各个数量级的数据查询场景,并在业界具有较大的性能优势,本文基于MaxCompute提供的公开数据集及测试工具,以大数据基准测试TPC-DS为例为您验证MaxCompute的性能。准备工作 环境准备。在进行TPC-DS测试前,您...

REMOVE ACCOUNTPROVIDER

使用限制 本文中的命令您需要在 MaxCompute客户端 执行。本命令为CMD命令,仅支持在客户端(odpscmd)工具中运行。注意事项 项目空间非工作空间。项目空间名称获取方式:登录 MaxCompute控制台,选择 工作区>项目管理,项目管理 页面的...

DQL操作常见问题

在客户端的odps_config.ini文件中设置use_instance_tunnel=false,instance_tunnel_max_record=10,为什么Select还是能输出很多记录?如何用正则表达式判断字段是否为中文?在执行MaxCompute SQL过程中,报错Repeated key in GROUP BY,...

Python SDK示例:Configuration

odps2_extension 启用MaxCompute 2.0语言扩展 False 数据上传或下载配置 选项 说明 默认值 tunnel.endpoint Tunnel Endpoint None tunnel.use_instance_tunnel 使用Instance Tunnel获取执行结果 True tunnel.limited_instance_tunnel 限制...

MAP_FROM_ARRAYS

说明 MaxCompute的行为实现优先以函数中 mapDupKeyPolicy 的取值为准,当函数未配置 mapDupKeyPolicy 时,以 odps.sql.map.key.dedup.policy 参数的取值为准。a:必填。ARRAY数组。对应生成MAP的Key值。array中的 K 指代ARRAY数组元素的...

开发PyODPS 3任务

背景信息 PyODPS是MaxCompute的Python版本的SDK,提供简单方便的Python编程接口,以便您使用Python编写MaxCompute作业、查询MaxCompute表和视图,以及管理MaxCompute资源,详情请参见 PyODPS概述。在DataWorks中,您可通过PyODPS节点实现...

项目

项目(Project)是MaxCompute的基本组织单元,它类似于传统数据库的Database或Schema的概念,是进行多用户隔离和访问控制的主要边界。项目中包含多个对象,例如表(Table)、资源(Resource)、函数(Function)和实例(Instance)等,您...

与Hive、MySQL、Oracle内建函数对照表

本文为您提供MaxCompute、Hive、MySQL以及Oracle的内建函数对照表,方便您根据Hive、MySQL、Oracle内建函数查找对应的MaxCompute内建函数。日期函数 MaxCompute Hive MySQL Oracle DATEADD 无 无 无 DATE_ADD DATE_ADD DATE_ADD 无 DATE_...

查询非结构化数据

MaxCompute 2.0支持通过外部表的方式直接访问OSS、OTS等。MaxCompute Studio对此提供了一些代码模板方便您快速进行非结构化数据查询开发。本文为您介绍如何使用MaxCompute Studio查询非结构化数据。前提条件 您需要完成以下操作:管理项目...

2023年

2023年12月28日-MaxCompute升级公共云Endpoint 尊敬的MaxCompute用户:感谢您对云原生大数据计算服务MaxCompute的支持,MaxCompute将于北京时间2024年1月4日对华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北3(张家口...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
弹性伸缩 全局事务服务 (文档停止维护) 云原生大数据计算服务 MaxCompute 系统运维管理 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用