创建DataFrame

Pandas DataFrame创建DataFrame 从Pandas DataFrame创建DataFrame,您需要将Pandas DataFrame对象传入DataFrame方法。代码示例 from odps.df import DataFrame#从Pandas DataFrame创建DataFrame。import pandas as pd import numpy as np...

执行

ResultFrame to_pandas 转换为Pandas DataFrame或者Series,wrap参数为True的时候,返回PyODPS DataFrame对象。wrap为True时,返回PyODPS DataFrame。wrap为False时,返回Pandas DataFrame。False为默认值。plot,hist,boxplot 画图有关。...

概述

使用场景 Mars与PyODPS DataFrame使用场景如下:Mars 经常使用PyODPS DataFrame的 to_pandas()方法,将PyODPS DataFrame转换成Pandas DataFrame的场景。熟悉Pandas接口,但不愿意学习PyODPS DataFrame接口的场景。使用索引的场景。创建...

管理服务

param event:是aitag.decorator.in_out_process.Event的实例,会存放本次要处理的数据等:param context:是aitag.decorator.in_out_process.Context 存放本次执行的上下文信息:return:DataFrame,必须返回pandas DataFrame的格式"""#打印执行...

镜像管理

脚本示例如下:from odps.udf import annotate import pandas as pd@annotate("string,string->string")class SumColumns(object):def evaluate(self,arg1,arg2):#将输入参数转换为pandas DataFrame df=pd.DataFrame({'col1':arg1.split(',...

场景实践

脚本示例如下:from odps.udf import annotate import pandas as pd@annotate("string,string->string")class SumColumns(object):def evaluate(self,arg1,arg2):#将输入参数转换为pandas DataFrame df=pd.DataFrame({'col1':arg1.split(',...

排序、去重、采样、数据变换

PyODPS支持以下四种采样方式:说明 除了按份数采样外,其余方法如果要在ODPS DataFrame上执行,需要Project支持XFlow,否则,这些方法只能在Pandas DataFrame后端上执行。按份数采样 在这种采样方式下,数据被分为 parts 份,可选择选取的...

Machine Learning Workspace的创建

本文介绍了如何在Data-Service集群中创建和使用Machine Learning Workspace。前提条件 由于Data-Service集群的Management Console部署在内网中,因此需要通过SSH隧道访问。隧道的打通请参见 通过SSH隧道访问Cloudera Manager服务组件Web UI...

绘图

详细的参数说明请参见 pandas.DataFrame.plot。kind 说明 line 线图。bar 竖向柱状图。barh 横向柱状图。hist 直方图。box Box图。kde 核密度估计。density 和Kde相同。area Area图。pie 饼图。scatter 散点图。hexbin Hexbin图。除上表所...

数据输入输出

df.to_odps_table("parted_table",partition_col=["pt_col"]).execute()Pandas对象 您可以将本地PandasDataFrame对象和MaxFrame的DataFrame进行互相转换。当调用 read_pandas 方法时,Pandas对象将被上传至MaxCompute并在集群中使用。md_...

概述

对于Pandas自定义函数,输入数据的类型是Pandas中定义的数据结构,例如pandas.Series和pandas.DataFrame等,您可以在Pandas自定义函数中使用Pandas和NumPy等高性能的Python库,开发出高性能的Python自定义函数,详情请参见 Vectorized User...

Python SDK常见问题

上传Pandas DataFrame至MaxCompute时,报错ODPSError,如何解决?通过DataFrame写表时,报错lifecycle is not specified in mandatory mode,如何解决?使用PyODPS写数据时,提示Perhaps the datastream from server is crushed,如何解决...

PyODPS常见问题

上传Pandas DataFrame至MaxCompute时,报错ODPSError,如何解决?通过DataFrame写表时,报错lifecycle is not specified in mandatory mode,如何解决?使用PyODPS写数据时,提示Perhaps the datastream from server is crushed,如何解决...

(邀测)MaxCompute Notebook使用说明

支持在MaxCompute Notebook Code中直接使用MaxCompute SQL语法操作MaxCompute数据,并支持将MaxCompute SQL执行结果可视化转为PyODPS DataFrame,同时支持PyODPS DataFrame与Pandas DataFrame互相转换。内置丰富函数库 MaxCompute Notebook...

聚合操作

本文为您介绍DataFrame支持的聚合操作,以及如何实现分组聚合和编写自定义聚合。DataFrame提供对列进行HyperLogLog计数的接口。from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))常用聚合操作如下:使用 describe...

使用Python访问Hologres

cur.close()conn.close()Pandas DataFrame快速写入Hologres最佳实践 使用Python时,经常会使用Pandas将数据转换为DataFrame,并对DataFrame进行处理,最终将DataFrame导入Hologres,此时希望将DataFrame快速导入Hologres。导入时候常用 to_...

Python SDK示例:SQL

设置读取结果为pandas DataFrame#直接使用 reader 的 to_pandas 方法 with o.execute_sql('select*from dual').open_reader(tunnel=True)as reader:#pd_df 类型为 pandas DataFrame pd_df=reader.to_pandas()设置读取速度(进程数)说明 多...

在GPU实例上使用RAPIDS加速机器学习任务

ETL阶段会进行到表关联、分组、聚合、切片等操作,数据格式采用cuDF库的DataFrame格式(类似于pandasDataFrame格式)。示例效果如下:启动Data Conversion。将DataFrame格式的数据转换为用于XGBoost训练的DMatrix格式,每个worker处理...

PyODPS概述

PyODPS提供了 to_pandas 接口,可以直接将MaxCompute数据转化成Pandas DataFrame数据结构,但这个接口只应该被用于获取小规模数据做本地开发调试使用,而不是用来大规模处理数据,因为使用这个接口会触发下载行为,将位于MaxCompute中的...

部署推理服务

PAI Python SDK提供了易用的API(即HighLevel API),支持用户将模型部署到PAI创建推理服务。本文档介绍了如何使用SDK在PAI部署推理服务。概要介绍 SDK提供了HighLevel API,即 pai.model.Model 和 pai.predictor.Predictor,支持用户将...

Python SDK示例:Table

直接读取成 Pandas DataFrame:with t.open_reader(partition='pt=test')as reader:pd_df=reader.to_pandas()写入表数据 类似于 open_reader,table对象同样能执行 open_writer 来打开writer,并写数据。使用with写法:with t.open_writer...

使用限制

通过PyODPS发起的SQL和DataFrame任务(除to_pandas外)不受此限制。由于缺少matplotlib等包,如下功能可能受限:DataFrame的plot函数。DataFrame自定义函数需要提交到MaxCompute执行。由于Python沙箱限制,第三方库只支持所有的纯粹Python...

使用Notebook开发

输出变量 可在Ipython中直接使用变量名称(在结果集左下角),变量类型为pandas.core.frame.DataFrame。如需自定义变量名称,请单击变量名称即可修改。查询的SQL结果集一键可视化,支持表格和图表两种展示形式。PySpark kernel(内核)默认...

快速入门

您可以通过PyODPS提供的DataFrame API使用Pandas的数据结果处理功能。本文以DataWorks平台为例,帮助您快速开始使用PyODPS,并且能够用于实际项目。前提条件 已开通MaxCompute服务,详情请参见 开通MaxCompute。已开通DataWorks服务,并...

Python SDK示例:DataFrame

DataFrame PyODPS提供了DataFrame API,它提供了类似Pandas的接口,但是能充分利用MaxCompute的计算能力。完整的DataFrame文档请参见 DataFrame。假设已经存在三张表,分别是 pyodps_ml_100k_movies(电影相关的数据)、pyodps_ml_100k_...

开发PyODPS 2任务

背景信息 PyODPS是MaxCompute的Python版本的SDK,提供简单方便的Python编程接口,以便您使用Python编写MaxCompute作业、查询MaxCompute表和视图,以及管理MaxCompute资源,详情请参见 PyODPS概述。在DataWorks中,您可通过PyODPS节点实现...

Delta Lake CDC构建增量数仓

查询2结果 DataFrame示例/Create and Write to Delta CDF-enabled Table val df=Seq((1,"XUN",32),(2,"JING",30)).toDF("id","name","age")df.write.format("delta").mode("append").option("delta.enableChangeDataFeed","true")/首次写入...

开发PyODPS 2任务

背景信息 PyODPS是MaxCompute的Python版本的SDK,提供简单方便的Python编程接口,以便您使用Python编写MaxCompute作业、查询MaxCompute表和视图,以及管理MaxCompute资源,详情请参见 PyODPS概述。在DataWorks中,您可通过PyODPS节点实现...

基于MaxFrame实现分布式Pandas处理

MaxFrame可以在分布式环境下使用与Pandas相同的API来分析数据,通过MaxFrame,您能够以高于开源Pandas数十倍的性能在MaxCompute上快速完成数据分析和计算工作。本文为您介绍如何通过MaxFrame使用常用的Pandas算子。前提条件 已安装MaxFrame...

开发PyODPS 3任务

背景信息 PyODPS是MaxCompute的Python版本的SDK,提供简单方便的Python编程接口,以便您使用Python编写MaxCompute作业、查询MaxCompute表和视图,以及管理MaxCompute资源,详情请参见 PyODPS概述。在DataWorks中,您可通过PyODPS节点实现...

列运算

列运算 from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))lens=DataFrame(o.get_table('pyodps_ml_100k_lens'))为一个Sequence加上一个常量或执行sin函数时,这些操作将作用于Sequence中的每个元素。NULL相关...

开发PyODPS 3任务

背景信息 PyODPS是MaxCompute的Python版本的SDK,提供简单方便的Python编程接口,以便您使用Python编写MaxCompute作业、查询MaxCompute表和视图,以及管理MaxCompute资源,详情请参见 PyODPS概述。在DataWorks中,您可通过PyODPS节点实现...

2024年

租户属性 2024-04-19 新增MaxFrame快速入门 新说明 本文以具体数据及开发场景为例,为您介绍在DataWorks数据开发的PyODPS 3节点中,如何创建和操作MaxFrame中的DataFrame对象,以及使用DataFrame完成基本的数据处理,帮助您在十分钟内快速...

通过DataWorks使用PyODPS

查询当前用户信息:在要执行的代码中增加以下语句,如果运行结果中打印出的用户信息为您所传入的其他用户的UID,则表示您是使用其他账号访问的MaxCompute。print(new_odps.get_project().current_user)说明 new_odps:表示上述的新账号的...

快速开始

下一步可以对 geom 列进行各类时空相关的查询分析操作,如使用Spark SQL对 geom 字段进行时空查询过滤。ais.createOrReplaceTempView("ais")val query=spark.sql("SELECT*FROM ais WHERE"+"st_contains(st_geomfromtext('POLYGON((73.0 8.5...

Notebook

无 初始化命令 否 在运行Notebook ipynb文件前初始化运行环境,例如安装必须的包:pip install pandas。无 自动关机时间 否 DSW实例将在指定的时间内自动关机,避免用户调试完成后忘记关闭环境。1小时 执行配置 选择资源组 公共资源组 否 ...

5分钟使用EAS部署Stable Diffusion API服务

bucket.get_object_to_file(url[len("oss:/<examplebucket>/"):],f'output-{idx}.png')其中关键配置说明如下:配置 描述 url 将替换为 步骤1 中查询到的服务访问地址。mount_path 配置为部署服务时配置的OSS挂载路径。oss_url 配置为部署...

Collection

DataFrame中所有二维数据集上的操作都属于CollectionExpr,可视为一张MaxCompute表或一张电子表单,DataFrame对象也是CollectionExpr的特例。CollectionExpr中包含针对二维数据集的列操作、筛选、变换等大量操作。前提条件 您需要提前完成...

使用PyODPS读写MaxCompute表

在DSW实例中,您可以通过SQL File方便地查询MaxCompute表数据,以及可视化展示查询结果,也可以使用PyODPS实现对MaxCompute表更多丰富的操作。本文介绍如何使用PyODPS和SQL File读MaxCompute表数据。前提条件 在开始执行操作前,请确认您...

使用Python开发自定义Processor

使用Python开发自定义Processor的流程如下:步骤一:构建开发环境 EAS 提供的Python SDK支持多种Python机器学习框架,并能够集成Pandas等数据分析处理框架。通过本文给出的方式,您可以在本地构建Python开发环境,以便后续开发自定义...
共有6条 < 1 2 3 4 ... 6 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
号码百科 弹性公网IP 短信服务 人工智能平台 PAI 对象存储 模型服务灵积
新人特惠 爆款特惠 最新活动 免费试用