UDF开发(Python2)

MaxCompute使用的Python 2版本为2.7。本文为您介绍如何通过Python 2语言编写UDF。UDF代码结构 您可以通过 MaxCompute Studio 工具使用Python 2语言编写UDF代码,代码中需要包含如下信息:编码声明:可选。固定声明格式为#coding:utf-8 或#-...

多路输出(MULTI INSERT)

MaxCompute SQL支持您在一条SQL语句中通过 insert into 或 insert overwrite 操作将数据插入不同的目标表或者分区中,实现多路输出。本文中的命令您可以在如下工具平台执行:MaxCompute客户端 使用SQL分析连接 使用云命令行(odpscmd)连接...

MULTI INSERT

MaxCompute SQL支持您在一条SQL语句中通过 insert into 或 insert overwrite 操作将数据插入不同的目标表或者分区中,实现多路输出。前提条件 执行操作前需要具备目标表的修改权限(Alter)及源表的元信息读取权限(Describe)。授权操作请...

2021年

使用HBase外部表,可以同步HBase中的数据到MaxCompute进行后续ETL处理,也可以关联HBase外部表进行联邦计算,或将MaxCompute数据输出到HBase表。目前读写HBase外部表处于公测阶段,不收取计算费用,也暂时不保证SLA。2021-02-08 华北2...

MaxCompute UDF概述

UDF(User-Defined Function)即自定义函数,当MaxCompute提供的内建函数无法支撑您的业务实现时,您可以根据本文中的开发流程及使用示例,自行编写代码逻辑创建自定义函数,以满足多样化业务需求。背景信息 广义的UDF定义是 自定义标量...

数据类型版本说明

MaxCompute目前提供了三种不同类型的数据类型版本,包括1.0数据类型、2.0数据类型以及Hive兼容数据类型,您可以根据业务需求选择合适的数据类型版本。本文为您介绍三种数据类型版本、选择数据类型版本以及查看和修改项目的数据类型版本。...

Python SDK示例:Table

使用with写法:with t.open_writer(partition='pt=test')as writer:records=[[111,'aaa',True],#这里可以是list[222,'bbb',False],[333,'ccc',True],[444,'中文',False]]writer.write(records)#这里records可以是可迭代对象 records=[t.new...

2024年

本文为您介绍MaxCompute 2024年产品公告,基于此您可以了解MaxCompute中增加了哪些新功能、语法新特性和权限变更等信息,以提升项目开发效率。2024年04月30日-MaxCompute存储服务升级 尊敬的MaxCompute用户:MaxCompute将于北京时间 2024年...

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化,为了更直观地反应整个过程,您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件 和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

Quick BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入阿里云Quick BI,对海量数据进行实时在线分析服务,同时支持拖拽式操作和丰富的可视化效果,帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。本文为您介绍如何使用Quick BI连接...

UNLOAD

本文中的命令您可以在如下工具平台执行:MaxCompute客户端 使用SQL分析连接 使用云命令行(odpscmd)连接 使用DataWorks连接 MaxCompute Studio 功能介绍 MaxCompute支持使用 unload 命令将MaxCompute数据导出至 OSS、Hologres 外部存储...

UNLOAD

本文中的命令您可以在如下工具平台执行:MaxCompute客户端 使用SQL分析连接 使用云命令行(odpscmd)连接 使用DataWorks连接 MaxCompute Studio 功能介绍 MaxCompute支持使用 unload 命令将MaxCompute数据导出至 OSS、Hologres 外部存储...

数据传输与迁移概述

MaxCompute提供多种渠道,以便您从业务系统或外部数据源写入数据MaxCompute,或者从MaxCompute写出数据到外部系统或外部数据源。数据传输渠道 SDK-Tunnel渠道 外表(湖仓一体)JDBC渠道 场景数据写入MaxCompute 离线数据批量写入(数据...

数据上云场景

数据库数据同步 数据库的数据同步到MaxCompute需要根据数据库的类型和同步策略来选择相应的工具。离线批量的数据库数据同步:可以选择DataWorks,支持的数据库种类丰富,包括MySQL、SQL Server、PostgreSQL等,详情请参见 通过向导模式配置...

准备阿里云账号

如果仅您本人使用MaxCompute,请开通MaxCompute。更多开通MaxCompute信息,请参见 开通MaxCompute和DataWorks。说明 推荐您创建RAM用户,并通过RAM用户使用MaxCompute,为处理因业务增长可能会产生的权限管控问题提供便利。

DML操作常见问题

MaxCompute SQL中使用到新数据类型(TINYINT、SMALLINT、INT、FLOAT、VARCHAR、TIMESTAMP或BINARY)时,需要执行如下语句开启新数据类型开关:Session级别:如果使用数据类型,您需要在SQL语句前加上 set odps.sql.type.system.odps2=...

概述

Out[5]:0 1 0 1.0 NaN 1 1.0 1.0 PyODPS PyODPS使用MaxCompute计算和存储数据,而MaxCompute并不保证数据顺序,因此PyODPS不保证数据顺序,不支持时序操作。执行层 Mars Mars包含客户端和分布式执行层。您可以通过调用 o.create_mars_...

近实时增量导入

实际业务数据处理场景中,涉及的数据源丰富多样,可能存在数据库、日志系统或者其他消息队列等系统,为了方便用户将数据写入MaxCompute的Transactional Table 2.0,MaxCompute深度定制开发了开源 Flink Connector工具,联合DataWorks数据...

加工数据

本文为您介绍如何将同步MaxCompute的用户信息表ods_user_info_d及访问日志数据ods_raw_log_d,通过DataWorks的ODPS SQL节点加工得到目标用户画像数据,阅读本文后您可了解到如何通过DataWorks+MaxCompute产品组合来计算和分析已采集的...

2024年

2024-03-27 全部地域 镜像管理 MaxCompute分布式计算框架MaxFrame发布 MaxFrame是由阿里云自研的分布式计算框架,支持Python编程接口、兼容Pandas接口且自动进行分布式计算,同时可直接使用MaxCompute计算资源及数据接口,与MaxCompute ...

2019年

概述 通过Tunnel迁移日志数据MaxCompute 通过DataHub迁移日志数据MaxCompute 通过DataWorks数据集成迁移日志数据MaxCompute 通过日志服务迁移日志数据MaxCompute 2019-12-25 新增开源地理空间UDF。新功能 您可以将开源地理空间UDF...

MMA概述

数据迁移原理 Hive数据迁移原理 Hive数据迁移包含通过Hive UDTF迁移数据MaxCompute、通过OSS迁移Hive数据MaxCompute,本文为您介绍两种数据迁移方式的原理。通过Hive UDTF迁移数据MaxCompute。该场景通过Hive的分布式能⼒,实现Hive...

(邀测)MaxCompute Notebook使用说明

MaxCompute Notebook是由MaxCompute提供的全托管、交互式数据分析挖掘模块,为数据工程师、数据分析师及数据科学家等人员提供Web交互式开发环境。支持用户通过SQL、PyODPS、Python等进行数据分析、探索,挖掘数据的价值,完成大数据与AI的...

运行安全命令示例

本文为您介绍如何在MaxCompute客户端上使用Java SDK接口运行安全相关的命令。前提条件 您需要完成以下操作:准备IntelliJ IDEA开发工具,请参见 安装Studio。配置MaxCompute Studio连接MaxCompute项目空间,请参见 创建MaxCompute项目连接...

用户规划与管理

MaxCompute项目需要多人维护时,非项目所有者(Project Owner)的用户必须被加入MaxCompute项目中,且被授予相应的权限,才能操作MaxCompute中的表、资源、函数或作业(实例)。本文为您介绍MaxCompute支持的用户管理操作。背景信息 创建...

利用MaxCompute External Volume处理非结构化数据

External Volume是MaxCompute提供的分布式文件系统和数据存储方案,为OSS路径在MaxCompute中的映射对象。MaxCompute通过创建External Volume去挂载OSS的一个路径,利用MaxCompute权限管理系统对用户访问External Volume做细粒度的权限控制...

数据输入输出

MaxFrame支持直连MaxCompute,允许对MaxCompute中的数据进行高效直接读写操作,运行时无需将数据拉取至本地计算,消除了不必要的本地数据传输,提高了执行效率。MaxCompute表 您可以使用MaxCompute表创建MaxFrame DataFrame对象,并将计算...

2019年

2019-11-22 全部区域 数据动态脱敏 支持通过Tableau连接MaxCompute 您可以通过MaxCompute JDBC驱动,使用Tableau对MaxCompute上的数据进行可视化分析。2019-11-18 全部区域 配置JDBC使用Tableau 新增MaxCompute JDBC驱动 MaxCompute JDBC...

MapReduce常见问题

本文为您介绍在使用MapReduce时的常见问题。问题类别 常见问题 功能咨询 MapReduce的输入源可以是视图吗?MapReduce的结果写入到表或分区时,会覆盖还是追加数据?MapReduce中是否可以调用Shell文件?reduce.setup能否读入输入表?Mapper...

SQL Workbench/J连接MaxCompute

MaxCompute支持您通过数据库管理工具SQL Workbench/J访问MaxCompute项目,进行数据管理操作。本文为您介绍如何通过MaxCompute JDBC驱动,连接SQL Workbench/J和MaxCompute项目并管理数据。背景信息 SQL Workbench/J是一个免费的、独立于...

Tunnel SDK常见问题

JAR包不能超过10 MB,如果JAR包超过10 MB,建议转用MaxCompute Tunnel Upload 命令上传数据使用Tunnel SDK上传数据时,是否有分区数量限制?最大支持6万个分区。分区数量过多,不方便进行统计和分析。MaxCompute会限制单个作业中Instance...

TPC-DS数据

MaxCompute通过TPC-DS官方工具生成了10GB、100GB、1TB、10TB四个规格的TPC-DS数据,此数据方便您在做产品测试时使用。本文为您介绍MaxCompute公开数据集中TPC-DS数据的基本信息,以及如何通过MaxCompute执行TPC-DS数据查询。简介 TPC ...

MaxCompute的表类似于传统关系型数据库中的表,可以存储结构化数据,并且使用SQL进行查询和分析。MaxCompute中不同类型计算任务的操作对象(输入、输出)都是表。您可以 创建表、删除表以及向表中导入数据。说明 DataWorks的数据开发模块...

MaxCompute在电商场景中如何进行漏斗模型分析

本文以电商场景为例,为您介绍如何使用MaxCompute进行离线数据计算并连接Quick BI进行漏斗模型展示。背景信息 漏斗模型是通过产品各项数据的转化率来判断产品运营情况的工具。转化漏斗则是通过各阶段数据的转化,来判断产品在哪一个环节出...

SQL概述

MaxCompute SQL是MaxCompute中用于数据查询和分析的SQL语言,其语法类似于标准SQL,但在标准语法ANSI SQL92的基础上进行了一些扩展和限制以更好地服务于大规模数据仓库的场景。本文为您介绍MaxCompute SQL使用场景、使用向导及支持的工具...

通过Tunnel迁移日志数据MaxCompute

本文为您介绍如何通过Tunnel上传日志数据MaxCompute。前提条件 安装MaxCompute客户端,详情请参见 安装并配置MaxCompute客户端。将日志数据保存至本地。本文使用的示例数据为 loghub.csv。背景信息 Tunnel是MaxCompute的批量上传数据工具...

大量数据导出方案

DataWorks 可以方便地帮您运行SQL,同步数据,并支持定时调度,配置任务依赖的功能。开源工具DataX可以帮助您方便地把MaxCompute中的数据导出到目标数据源,详情请参见 DataX概述。SQLTask方式导出 SQLTask使用SDK方法,直接调用MaxCompute...

安全配置常见问题

问题类别 常见问题 数据安全 MaxCompute如何保证数据安全?MaxCompute数据是否可靠?VPC IP白名单是否支持设置网段?项目安全 运行作业报错AllMachineInBlackList,如何解决?因涉及项目数据保护,无法将MaxCompute数据导出至MySQL,如何...

开发UDF

MaxCompute提供的内建函数无法满足您的业务需求时,您可在MaxCompute Studio中自行开发UDF(自定义函数)以实现业务功能,本文介绍如何使用MaxCompute Studio开发及调试Java UDF。前提条件 您需要完成以下操作:管理项目连接 创建...

2021年

使用Kettle调度MaxCompute 使用Apache Airflow调度MaxCompute 使用Azkaban调度MaxCompute 2021-08-02 in/not in subquery 及 scalar subquery 支持多列。更新说明 兼容PostgreSQL支持多列的需求。子查询(SUBQUERY)2021年7月更新记录 时间...
共有144条 < 1 2 3 4 ... 144 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生大数据计算服务 MaxCompute 全局事务服务 (文档停止维护) 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构
新人特惠 爆款特惠 最新活动 免费试用