缺失填充训练

单个节点内存大小,单位M 取值范围为1024 MB~64*1024 MB【输出桩说明】输出桩(从左到右)下游建议组件 模型类型 模型 缺失填充批预测 缺失填充模型 具体示例 您可以将以下代码复制到 PyAlink脚本 组件中,使PyAlink脚本组件实现该...

创建DataFrame

Pandas DataFrame创建DataFrame 从Pandas DataFrame创建DataFrame,您需要将Pandas DataFrame对象传入DataFrame方法。代码示例 from odps.df import DataFrame#从Pandas DataFrame创建DataFrame。import pandas as pd import numpy as np...

MapReduce API

df1=DataFrame(pd.DataFrame({'a':['name1','name2','name3','name1'],'b':[1,2,3,4]}))>>>df1 a b 0 name1 1 1 name2 2 2 name3 3 3 name1 4>>>df2=DataFrame(pd.DataFrame({'a':['name1']}))>>>df2 a 0 name1>>>df1.bloom_filter('a',df2...

列运算

列运算 from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))lens=DataFrame(o.get_table('pyodps_ml_100k_lens'))为一个Sequence加上一个常量或执行sin函数时,这些操作将作用于Sequence中的每个元素。NULL相关...

数学计算函数

本文介绍数学计算函数的基本语法和示例。日志服务支持如下数学计算函数。说明 支持如下运算符:+-*/其中,使用运算符/时,默认不保留小数部分。您可通过 x*1.0/y 运算,保留小数部分。在日志服务分析语句中,表示字符串的字符必须使用单...

排序、去重、采样、数据变换

您可以对DataFrame对象执行排序、去重、采样、数据变换操作。前提条件 您需要提前完成以下步骤,用于操作本文中的示例:准备示例表 pyodps_iris,详情请参见 Dataframe数据处理。创建DataFrame。from odps.df import DataFrame iris=...

缺失值处理

功能说明 缺失值处理组件支持对缺失的数据进行填充或剔除,数据集出现缺失值可能会导致后续的建模异常,可以在数据处理阶段对缺失值进行填充或剔除。支持的填充方法有:前值,后值,均值,和指定值。计算逻辑原理 前值:将缺失值按照前面...

概述

使用场景 MarsPyODPS DataFrame使用场景如下:Mars 经常使用PyODPS DataFrame的 to_pandas()方法,将PyODPS DataFrame转换成Pandas DataFrame的场景。熟悉Pandas接口,但不愿意学习PyODPS DataFrame接口的场景。使用索引的场景。创建...

Sequence

前提条件 您需要提前完成以下步骤,用于操作本文中的示例:准备示例表 pyodps_iris,详情请参见 Dataframe数据处理。创建DataFrame,详情请参见 从MaxCompute表创建DataFrame。获取列 您可以使用 collection.column_name 取出一列,代码...

Python SDK常见问题

上传Pandas DataFrame至MaxCompute时,报错ODPSError,如何解决?通过DataFrame写表时,报错lifecycle is not specified in mandatory mode,如何解决?使用PyODPS写数据时,提示Perhaps the datastream from server is crushed,如何解决...

PyODPS常见问题

上传Pandas DataFrame至MaxCompute时,报错ODPSError,如何解决?通过DataFrame写表时,报错lifecycle is not specified in mandatory mode,如何解决?使用PyODPS写数据时,提示Perhaps the datastream from server is crushed,如何解决...

提取字段

您在使用Logtail采集日志时,可以添加Logtail插件,通过正则模式、标定模式、CSV模式、单字符分隔符模式、多字符分隔符模式、键值模式、Grok模式提取日志字段。本文介绍各个插件的参数说明和配置示例。使用限制 文本日志和容器标准输出只...

执行

前提条件 您需要提前完成以下步骤,用于操作本文中的示例:准备示例表 pyodps_iris,详情请参见 Dataframe数据处理。创建DataFrame,详情请参见 从MaxCompute表创建DataFrame。延迟执行 DataFrame上的所有操作并不会立即执行,只有当显式...

Document

本文介绍文字文档Document相关的API。Document ActiveDocument 当前文档。语法:表达式.ActiveDocument,其中表达式为文档类型应用对象。方法 ActiveDocument.BuiltinDocumentProperties()通过 BuiltinDocumentProperties()方法,您可以...

PyODPS概述

PyODPS提供了 to_pandas 接口,可以直接将MaxCompute数据转化成Pandas DataFrame数据结构,但这个接口只应该被用于获取小规模数据做本地开发调试使用,而不是用来大规模处理数据,因为使用这个接口会触发下载行为,将位于MaxCompute中的...

镜像管理

MaxCompute提供镜像管理功能,内置数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等各类常用镜像,并已镜像进行预先加热,您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像,无需执行繁琐的镜像打包、上传...

使用自定义函数及Python第三方库

使用自定义函数 DataFrame函数支持Sequence使用 map,它会它的每个元素调用自定义函数。iris.sepallength.map(lambda x:x+1).head(5)sepallength 0 6.1 1 5.9 2 5.7 3 5.6 4 6.0 说明 目前,自定义函数无法支持将List/Dict类型作为输入...

DBMS_CRYPTO

DBMS_CRYPTO 包提供的函数和存储过程允许您RAW、BLOB或CLOB数据进行加密或解密。您可以使用 DBMS_CRYPTO 函数来产生强加密型随机值。DBMS_CRYPTO函数/存储过程 函数/存储过程 返回类型 描述 DECRYPT(src,typ,key,iv)RAW 解密RAW类型的...

缺失填充批预测

组件实现缺失填充功能,填充策略支持最大值、最小值、均值和指定数值四种。使用限制 支持的计算引擎为MaxCompute和Flink。算法简介 数据缺失填充处理,批式预测组件。运行时需要指定缺失值模型,由缺失填充训练组件产生。缺失填充...

DBMS_UTILITY

示例 以下匿名块用于查找EMP表的依赖项。BEGIN DBMS_UTILITY.GET_DEPENDENCY('TABLE','public','EMP');END;DEPENDENCIES ON public.EMP-*TABLE public.EMP()*CONSTRAINT c public.emp()*CONSTRAINT f public.emp()*CONSTRAINT p public.emp...

时空栅格函数参考

Tile st_tile(ProjectedRasterTile proj_raster)注意 ProjectedRasterTile为Tile的子类,是内置了空间范围空间参考的Tile。st_extent 获取Tile的空间范围。Struct[Double xmin,Double xmax,Double ymin,Double ymax]st_extent...

趋势分析表

图表概述 使用场景 常用于宏观指标的分析,可以分析年度、季度、月度、周、财年近7天的数据,并可以单个指标进一步的对比、趋势、均值、归一分析。效果图示例 图表数据配置 在 图表设计 的 数据 页签,选择需要的维度字段和度量字段。在 ...

多维分析表

多维分析表是一种更复杂且灵活的数据分析方式,它可以从多个维度数据进行切片,以便从不同角度深入洞察数据间的关联。本文为您介绍如何为多维分析表添加数据并配置样式。前提条件 已完成数据建模,数据集必须包含日期字段,且日期字段为...

XML函数

示例:SELECT xmlcomment('hello');xmlcomment-!hello->xmlconcat xmlconcat(xml[,.])→xml 函数 xmlconcat 将由单个 XML 值组成的列表串接成一个单独的值,这个值包含一个XML内容片段。空值会被忽略,只有当没有参数为非空时结果才为空。...

映射富化函数

本文介绍映射富化函数的语法规则,包括参数解释、函数示例等。函数列表 类型 函数 说明 字段映射 e_dict_map 目标数据字典进行映射,根据输入的字段映射一个新字段。支持和其他函数组合使用。相关示例,请参见 使用e_dict_map、e_search_...

缺失填充

一、组件说明 在联邦学习任务中,缺失值指的是数据集中某些特征(属性)的取值缺失。由于许多机器学习算法需要输入完整的数据集进行训练,所以在数据集中存在缺失值会模型的训练和性能产生影响。因此,需要对缺失值进行填充,以便于联邦...

概述

对于Pandas自定义函数,输入数据的类型是Pandas中定义的数据结构,例如pandas.Series和pandas.DataFrame等,您可以在Pandas自定义函数中使用Pandas和Numpy等高性能的Python库,开发出高性能的Python自定义函数,详情请参见 Vectorized User...

(邀测)MaxCompute Notebook使用说明

支持在MaxCompute Notebook Code中直接使用MaxCompute SQL语法操作MaxCompute数据,并支持将MaxCompute SQL执行结果可视化转为PyODPS DataFrame,同时支持PyODPS DataFrame与Pandas DataFrame互相转换。内置丰富函数库 MaxCompute Notebook...

聚合操作

本文为您介绍DataFrame支持的聚合操作,以及如何实现分组聚合和编写自定义聚合。DataFrame提供列进行HyperLogLog计数的接口。from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))常用聚合操作如下:使用 describe...

Python SDK示例:SQL

设置读取结果为pandas DataFrame#直接使用 reader 的 to_pandas 方法 with o.execute_sql('select*from dual').open_reader(tunnel=True)as reader:#pd_df 类型为 pandas DataFrame pd_df=reader.to_pandas()设置读取速度(进程数)说明 多...

日期和时间函数

日志服务提供时间函数、日期函数、日期和时间提取函数、时间间隔函数和时序补全函数,支持日志中的日期和时间进行格式转换,分组聚合等处理。本文介绍日期和时间函数的基本语法及示例。日志服务支持如下日期和时间函数。重要 日志服务中...

PySpark

./PY3/venv/bin/python3","spark.executor.resourceSpec":"medium"},"file":"oss:/test/example.py"} 说明 Spark开源社区的语义相同,venv.zip#PY3 代表将压缩包解压到计算节点工作目录的 PY3 文件夹下,继而可以从本地访问。...

字段值提取函数

本文介绍字段值提取函数的语法规则,包括参数解释、函数示例等。函数列表 类型 函数 说明 正则提取 e_regex 根据正则表达式提取字段的值并赋值给其他字段。支持和其他函数组合使用。相关示例,请参见 解析Java报错日志。JSON提取 e_json ...

使用Python访问Hologres

cur.close()conn.close()Pandas DataFrame快速写入Hologres最佳实践 使用Python时,经常会使用Pandas将数据转换为DataFrame,并DataFrame进行处理,最终将DataFrame导入Hologres,此时希望将DataFrame快速导入Hologres。导入时候常用 to_...

联邦预处理

本文介绍了联邦预处理场景中的 API 及示例。重要 本文涉及 API 中所有的占位符,例如"$df0",必须包含单引号或双引号。缺失填充 函数路径 fascia.biz.preprocessing.fillna 函数定义 def fillna(fed_df:HDataFrame,columns:List[str]=...

通过DataWorks使用PyODPS

本文为您介绍在DataWorks上使用PyODPS的使用限制、主要流程和部分简单应用示例。使用限制 使用方式限制 如果您发现有 Got killed 报错,即表明内存使用超限,进程被中止。请避免在PyODPS节点中直接下载数据并在DataWorks中处理数据,建议将...

解析SQL Server 2012常用的分析函数

分析函数CUME_DIST 函数定义 CUME_DIST函数在SQL Server 2012中用于计算给定一组值中某个特定值的累积分布。它根据升序或降序排列的方式来确定特定值在数据集中的相对位置。如果数据集按升序排列,则CUME_DIST函数计算小于等于当前值的行数...

局部异常因子异常检测

import pandas as pd df=pd.DataFrame([[0.73,0],[0.24,0],[0.63,0],[0.55,0],[0.73,0],[0.41,0]])dataOp=BatchOperator.fromDataframe(df,schemaStr='val double,label int')outlierOp=LofOutlierBatchOp()\.setFeatureCols(["val"])\....

开发PyODPS 2任务

示例 以下以一个简单示例为您介绍PyODPS节点的使用:准备数据集,创建 pyodps_iris 示例表,具体操作请参见 Dataframe数据处理。创建DataFrame,详情请参见 从MaxCompute表创建DataFrame。在PyODPS节点中输入以下代码并运行。from odps.df ...

IForest异常检测

from pyalink.alink import*import pandas as pd df=pd.DataFrame([[0.73,0],[0.24,0],[0.63,0],[0.55,0],[0.73,0],[0.41,0]])dataOp=BatchOperator.fromDataframe(df,schemaStr='val double,label int')outlierOp=IForestOutlierBatchOp()...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
OpenAPI Explorer 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构 对象存储
新人特惠 爆款特惠 最新活动 免费试用