dataframe-dataframe文档介绍内容-阿里云

创建DataFrame

DataFrame用于引用MaxCompute表、MaxCompute分区、Pandas DataFrame或Sqlalchemy Table（数据库表）数据源。这几种数据源的操作相同，您可以不更改数据处理代码，仅修改输入和输出指向，便可以将本地运行的小数据量测试代码迁移到...

DataFrame概述

PyODPS提供了DataFrame API，它提供了类似Pandas的接口，但是能充分利用MaxCompute的计算能力。同时能在本地使用同样的接口，用Pandas进行计算。快速入门：为您介绍如何创建和操作DataFrame对象，以及使用Dataframe完成基本的数据处理。...

Python SDK示例：DataFrame

本文为您介绍Python SDK中DataFrame相关的典型场景操作示例。DataFrame PyODPS提供了DataFrame API，它提供了类似Pandas的接口，但是能充分利用MaxCompute的计算能力。完整的DataFrame文档请参见 DataFrame。假设已经存在三张表，分别是 ...

PyODPS DataFrame的代码运行环境

使用PyODPS DataFrame编写数据应用时，同一个脚本文件中的代码会在不同位置执行，可能导致一些无法预期的问题，本文为您介绍当出现相关问题时，如何确定代码的执行环境，以及提供部分场景下的解决方案。概述 PyODPS是一个Python包而非...

Spark SQL、Dataset和DataFrame基础操作

本文为您介绍Spark SQL、Dataset和DataFrame相关的概念，以及Spark SQL的基础操作。Spark SQL、Dataset和DataFrame介绍 Spark SQL是一个用于结构化数据处理的Spark模块，与基本的Spark RDD的API不同，Spark SQL的接口还提供了更多关于数据...

Sequence

print(iris['sepallength'].head(5))返回结果 sepallength 0 4.9 1 4.7 2 4.6 3 5.0 4 5.4 列类型 DataFrame拥有自己的类型系统，进行表初始化时，MaxCompute的类型会被转换成对应的DataFrame类型，以便支持更多类型的计算后端。...

执行

本文为您介绍DataFrame操作支持的执行方法。前提条件您需要提前完成以下步骤，用于操作本文中的示例：准备示例表 pyodps_iris，详情请参见 Dataframe数据处理。创建DataFrame，详情请参见从MaxCompute表创建DataFrame。延迟执行 ...

绘图

本文为您介绍PyODPS DataFrame提供的绘图方法。如果您需要使用绘图功能，请先安装Pandas和Matplotlib。您可以在Jupyter中运行以下示例代码，并使用 pip install matplotlib 命令安装Matplotlib。绘图单线图>>>from odps.df import ...

快速入门

本文为您介绍如何创建和操作DataFrame对象，以及使用DataFrame完成基本的数据处理。数据准备本文将以 movielens 100K 进行举例，下载ml-100k.zip到本地。其中u.user是用户相关的数据，u.item是电影相关的数据，u.data是评分有关的数据。...

数据合并

本文向您介绍DataFrame支持的数据表的JOIN操作、UNION操作等数据合并操作。前提条件您需要提前导入以下示例表数据，用于操作本文中的示例，其中示例源数据下载请参见快速入门，使用到的两个示例表结构如下。from odps.df import ...

本文为您介绍DataFrame API支持使用窗口函数。grouped=iris.groupby('name')grouped.mutate(grouped.sepallength.cumsum(),grouped.sort('sepallength').row_number()).head(10)name sepallength_sum row_number 0 Iris-setosa 250.3 1 1 ...

列运算

列运算 from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))lens=DataFrame(o.get_table('pyodps_ml_100k_lens'))为一个Sequence加上一个常量或执行sin函数时，这些操作将作用于Sequence中的每个元素。NULL相关...

排序、去重、采样、数据变换

您可以对DataFrame对象执行排序、去重、采样、数据变换操作。前提条件您需要提前完成以下步骤，用于操作本文中的示例：准备示例表 pyodps_iris，详情请参见 Dataframe数据处理。创建DataFrame。from odps.df import DataFrame iris=...

批计算

使用Spark的DataFrame方式访问表格存储，并在本地和集群上分别进行运行调试。前提条件了解Spark访问表格存储的依赖包，并在使用时通过Maven方式引入项目中。Spark相关：spark-core、spark-sql、spark-hive Spark Tablestore connector：...

快速入门

您可以通过PyODPS提供的DataFrame API使用Pandas的数据结果处理功能。本文以DataWorks平台为例，帮助您快速开始使用PyODPS，并且能够用于实际项目。前提条件已开通MaxCompute服务，详情请参见开通MaxCompute。已开通DataWorks服务，并...

流计算

使用Spark的DataFrame方式访问表格存储，并在本地和集群上分别进行运行调试。前提条件了解Spark访问表格存储的依赖包，并在使用时通过Maven方式引入项目中。Spark相关：spark-core、spark-sql、spark-hive Spark Tablestore connector：...

表

PyODPS支持对MaxCompute表的基本操作，包括创建表、创建表的Schema、同步表更新、获取表数据、删除表、表分区操作以及如何将表转换为DataFrame对象。背景信息 PyODPS提供对MaxCompute表的基本操作方法。操作说明基本操作列出项目空间下...

概述

使用场景 Mars与PyODPS DataFrame使用场景如下：Mars 经常使用PyODPS DataFrame的 to_pandas()方法，将PyODPS DataFrame转换成Pandas DataFrame的场景。熟悉Pandas接口，但不愿意学习PyODPS DataFrame接口的场景。使用索引的场景。创建...

Python SDK常见问题

iris=DataFrame(o.get_table('pyodps_iris'))在DataFrame上执行Count获取DataFrame的总行数。iris.count()由于DataFrame上的操作并不会立即执行，只有当用户显式调用Execute方法或者立即执行的方法时，才会真正执行。此时为了防止Count方法...

PyODPS常见问题

iris=DataFrame(o.get_table('pyodps_iris'))在DataFrame上执行Count获取DataFrame的总行数。iris.count()由于DataFrame上的操作并不会立即执行，只有当用户显式调用Execute方法或者立即执行的方法时，才会真正执行。此时为了防止Count方法...

使用说明

In[1]:df=o.to_mars_dataframe('test_mars')In[2]:df.head(6).execute()Out[2]:col1 col2 0 0 0 1 0 1 2 0 2 3 1 0 4 1 1 5 1 2 写表通过 o.persist_mars_dataframe(df,'table_name')将Mars DataFrame保存为MaxCompute表。In[3]:df=o.to_...

保存联邦表

函数路径 fascia.biz.api.dataframe.save_fed_dataframe 函数定义 def save_fed_dataframe(fed_df:HDataFrame,uid:str=None,file_uri:Union[str,Dict]=None)请求参数名称描述类型是否必选描述 fed_df HDataFrame 必选待保存的联邦表。...

配置选项

options.tunnel.string_as_binary=True#用ODPS执行PyODPS DataFrame时，可以参照下面dataframe相关配置，在sort时将limit设置为一个比较大的值。options.df.odps.sort.limit=100000000 通用配置选项说明默认值 end_point ODPS Endpoint...

创建联邦表

函数路径 fascia.biz.api.dataframe.create_fed_dataframe 函数定义 def create_fed_dataframe(uid='${UID}',data_partitions=[${DATA_PARTITIONS}],filter_columns=[${FILTER_COLUMNS}])请求参数名称类型是否必选描述 uid String 必选...

聚合操作

本文为您介绍DataFrame支持的聚合操作，以及如何实现分组聚合和编写自定义聚合。DataFrame提供对列进行HyperLogLog计数的接口。from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))常用聚合操作如下：使用 describe...

开发PyODPS 2任务

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))for record in iris[iris.sepal_width].execute():#调用立即执行的方法，处理每条Record。如果您需要在Print时调用立即执行，需要开启 options.interactive。...

开发PyODPS 2任务

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))for record in iris[iris.sepal_width].execute():#调用立即执行的方法，处理每条Record。如果您需要在Print时调用立即执行，需要开启 options.interactive。...

数据集拆分

函数路径 fascia.data.horizontal.dataframe.train_test_split 函数定义 def train_test_split(data:HDataFrame,ratio:float,random_state:int=None,shuffle:bool=True)->(HDataFrame,HDataFrame):参数参数类型描述 data HDataFrame 待...

开发PyODPS 3任务

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))for record in iris[iris.sepal_width].execute():#调用立即执行的方法，处理每条Record。如果您需要在Print时调用立即执行，需要开启 options.interactive。...

开发PyODPS 3任务

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))for record in iris[iris.sepal_width].execute():#调用立即执行的方法，处理每条Record。如果您需要在Print时调用立即执行，需要开启 options.interactive。...

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化，为了更直观地反应整个过程，您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

Python SDK示例：Configuration

True df.optimizes.pp 是否开启DataFrame谓词下推优化 True df.optimizes.cp 是否开启DataFrame列剪裁优化 True df.optimizes.tunnel 是否开启DataFrame使用Tunnel优化执行 True df.quote MaxCompute SQL后端是否用 `` 来标记字段和表名 ...

准备工作

创建MaxFrame session session=new_session(o)df=md.read_odps_table("test_source_table",index_col="b")df["a"]="prefix_"+df["a"]#打印dataframe数据 print(df.execute().fetch())#MaxFrame DataFrame数据写入MaxCompute表 md.to_...

PyODPS概述

功能介绍 PyODPS应用场景请参见：DataFrame操作：DataFrame快速入门。读取分区表数据：PyODPS读取分区表数据。参数传递：PyODPS参数传递。使用第三方包：PyODPS使用第三方包。查看一级分区：PyODPS查看一级分区。条件查询：PyODPS条件查询...

PySpark基础操作

您可以通过PySpark提供的DataFrame接口，完成各种计算逻辑。本文为您介绍PySpark的基础操作。操作步骤初始化SparkSession。初始化SparkSession作为PySpark的执行入口。from pyspark.sql import SparkSession spark=SparkSession.builder....

数据输入输出

MaxCompute表您可以使用MaxCompute表创建MaxFrame DataFrame对象，并将计算结果存储到另一张MaxCompute表中。从非分区表 test_odps_table 中获取数据，通过MaxFrame进行转换并将其存储到另一张分区表 test_processed_odps_table 中，代码...

数据科学计算概述

支持DataFrame API，提供类似Pandas的接口，能充分利用MaxCompute的计算能力进行DataFrame计算（2016～2022年）：PyODPS DataFrame可以让用户使用Python来进行数据操作，因此用户可以很容易利用Python的语言特性。PyODPS DataFrame提供了很...

dataframe

新品推荐