过滤式特征选择

根据您使用的不同特征选择方法,从所有稀疏或稠密格式的特征数据中选择并过滤出TopN的特征数据,同时保存为特征重要性表,实现了降低模型训练的难度和提高训练模型的精确度。本文为您介绍 Designer 提供的过滤式特征选择组件的参数配置和...

评分卡训练

评分卡是信用风险评估领域常用的建模工具,其原理是通过分箱输入将原始变量离散化后再使用线性模型(逻辑回归或线性回归等)进行模型训练,其中包含特征选择及分数转换等功能。同时也支持在训练过程中为变量添加约束条件。说明 如果未指定...

特征稳定性PSI

PSI也可以用于进行特征选择,选取在不同时间段或不同数据集中分布稳定的特征,避免使用不稳定的特征对模型性能造成负面影响。在联邦学习任务中,PSI是通过联邦建模来实现的,可以保证数据的安全前提下,计算对应两方数据的PSI值。在PSI计算...

通用联邦学习模板

step 3 训练侧特征工程:选择和提取有用的特征,包括特征选择、特征变换、特征抽取和特征组合等。其中,对于Category特征和Numeric特征,均有对应的处理方案,详见组件说明。特征工程的配置可输出,供预测和评估流程使用。step 4 测试侧...

箱线图

选择枚举类型特征 选择枚举类型的特征。说明 在 Designer 中仅支持选择一个字段;在 Designer 中支持选择多个字段。分层样本采用数 分层样本的采用数。方式二:PAI命令方式 使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI...

特征离散

页签 参数 描述 字段设置 离散的特征 选择需要离散的特征。标签列 如果您设置了该字段,则可以通过可视化方式查看特征到目标变量的 x-y 分布直方图。参数设置 离散方法 离散方法。取值如下:Isometric Discretization(等距离散)...

在FeatureStore中使用自动特征工程(AutoFE)

计费说明 AutoFE本身不收费,但在进行预处理、特征选择、分析和模型训练等操作时,会在MaxCompute预付费/按量付费Project中启动数据计算及模型训练任务,因此会产生MaxCompute相关的公共资源费用,计费详情请参见 MaxCompute计费概述。...

FM算法

组件 页签 参数 描述 FM训练 字段设置 特征列 根据输入数据表的特征选择特征列。支持STRING和DOUBLE类型的数据。标签列 根据输入数据表的特征选择标签列。仅支持DOUBLE类型。高级选项 仅在 Designer 控制台,需要配置该参数。如果选中 高级...

特征分组统计

一、组件说明 在联邦学习任务中,对于数值类特征,用户通常会关注特征的分组统计值,【特征数值统计】组件主要用于数值类特征的分组统计分析。...组件截图 二、参数说明 参数名称 参数说明 选择特征字段 选择想要进行统计计算的字段名,多选。

特征数值统计

一、组件说明 在联邦学习任务中,对于数值类特征,用户通常会关注一些...组件截图 二、参数说明 参数名称 参数说明 选择特征字段 选择想要进行统计计算的字段名,多选。选择基础统计功能 可以选择统计最大值、最小值、平均数、中位数,多选。

决策树

均方误差:父节点和子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失。费尔德曼均方误差:它使用费尔德曼均方误差,这种指标使用费尔德曼针对潜在分枝中的问题改进后的均方误差。平均...

随机森林

均方误差:父节点和子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失。平均绝对误差:它使用叶节点的中值来最小化 L1 损失。否 均方误差 均方误差 平均绝对误差 其他参数 参数名 参数...

线性支持向量机

页签 参数 是否必选 描述 字段设置 特征列 是 输入列,根据输入数据表的特征选择特征列,支持BIGINT和DOUBLE类型的数据。标签列 是 根据输入数据表的特征选择标签列,支持BIGINT、DOUBLE及STRING类型。参数设置 正样本的标签值 否 目标基准...

特征管理

添加特征表 创建 行业模板 之后,进入开放搜索 控制台 页面,左侧导航栏选择:OpenSearch行业算法版>搜索算法中心>特征管理,然后点击 添加特征表 按钮:在添加MaxCompute特征表窗口,填写 特征表名称,选择相应的MaxCompute 数据源,并...

GBDT二分类V2

两个组件当前的功能和参数支持情况,见下表:PS-SMART二分类参数 对应本组件的参数 是否稀疏格式 是否为稀疏向量格式 选择特征选择特征选择标签列 选择标签列 选择权重列 选择权重列 评估指标类型 不适用,默认为 AUC 指标,可以在 ...

心脏病预测

本工作流首先通过 类型转换 组件将输入特征转换为DOUBLE类型(因为逻辑回归模型的输入数据必须为DOUBLE类型),然后使用 过滤式特征选择 组件判断每个特征对于结果的影响(通过信息熵和基尼系数反映其影响)。同时,使用 归一化 组件将每个...

皮尔森相关系数CORR

一、组件说明 皮尔森相关系数是一种用于衡量两个变量之间线性相关关系的统计量,可用于衡量两个变量之间的...组件截图 二、参数说明 字段设置 参数名称 参数说明 选择特征字段 选择想要进行CORR计算的字段名,多选,仅可选择数值类型字段。

方差膨胀系数VIF

一、组件说明 方差膨胀系数(VIF)是用于检测多元回归模型中自变量之间多重共线性的指标。VIF是一个统计量,衡量自变量之间线性相关性的强度。...组件截图 二、参数说明 参数名称 参数说明 选择特征字段 选择想要进行VIF计算的字段名,多选。

条件随机场

Dlifecycle=28-DcoreNum=10 参数名称 是否必选 描述 默认值 inputTableName 是 输入特征数据表 无 inputTablePartitions 否 输入特征选择的分区 全表 featureColNames 否 输入表选择特征列 默认选择全部,自动排除label列。...

组件参考:所有组件汇总

过滤式特征选择 该组件将根据您使用的不同特征选择方法,从所有稀疏或稠密格式的特征数据中选择并过滤出TopN的特征数据。特征编码 该组件是将非线性特征通过GBDT编码成线性特征。one-hot编码 您可以通过该组件后数据会变成稀疏,输出结果也...

定制排序模型

并 添加排序模型特征(需填写 排序模型特征名称,选择 排序模型特征类型 和 选择特征,参考:特征管理),点击 确定 即可:说明 排序模型特征类型参考:定制排序模型特征配置规范 选择特征参考:系统内置基础特征 创建模型描述流程 创建 独...

PS线性回归

页签 参数 描述 字段设置 选择特征列 输入数据源中,参与训练的特征列。选择标签列 支持DOUBLE及BIGINT类型。是否稀疏格式 使用KV格式表示稀疏格式。kv间的分隔符 默认使用空格分隔。key与value分隔符 默认使用半角冒号(:)分隔。参数设置...

随机森林特征重要性

页签 参数 描述 字段设置 选择特征列 输入表中,用于训练的特征列。默认选中除Label外的所有列,为可选项。选择目标列 该参数为必选项。单击 图标,在 选择字段 对话框中,输入关键字搜索列,选中后单击 确定。参数设置 并行计算核数 并行...

PS-SMART多分类

右键单击 PS-SMART多分类-1 组件,在快捷菜单中,选择 查看数据>输出特征重要性表,查看特征重要性。其中:id 列表示传入的特征序号。因为该示例的输入数据是KV格式,所以 id 列表示KV对中的 key。value 列表示特征重要性类型,默认为 gain...

条件随机场预测

选择特征列 要进行标注的单词,以及该单词对应的特征。请选择目标列 选择目标列。预测结果列列名 预测结果列的名称,默认值为prediction_result。预测分数列列名 预测分数列的名称,默认值为prediction_score。预测详细列列名 预测详细列...

线性模型特征重要性

页签 参数 描述 字段设置 选择特征列 输入表中,用于训练的特征列。默认选中除标签列(例如Label)外的所有列,为可选项。选择目标列 该参数为必选项。单击 选择字段,选择标签列。输入表数据是否为稀疏格式 可选项。执行调优 计算核心数 ...

PS-SMART二分类训练

右键单击 PS-SMART二分类训练-1 组件,在快捷菜单,选择 查看数据>输出特征重要性表,查看特征重要性表。其中:id:表示传入的特征序号。因为该示例传入的特征为 f0、f1、f2、f3、f4 及 f5,所以 id 列的 0 表示 f0 特征列,id 列的 4 表示...

PS-SMART回归

右键单击 PS-SMART回归-1 组件,在快捷菜单,选择 查看数据>输出特征重要性表,查看特征重要性。其中 id 列表示传入的特征序号。因为该示例的输入数据是KV格式,所以 id 列表示KV对中的 key。该特性重要性表中仅有2个特性,表示树在分裂...

数据视图

页签 参数 描述 字段设置 选择特征列 用来表现训练样本数据特征的列。选择目标列 用来进行训练样本数据的目标列。枚举特征 勾选的特征将被视作枚举特征处理。k:v,k:v稀疏数据格式 是否采用KV格式的稀疏数据。参数设置 连续特征离散区间数 ...

散点图

参数 描述 选择特征选择用来表现训练样本数据特征的列。分类标签列 标签字段。抽样样本数 抽样的样本数量。方式二:PAI命令方式 使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见 SQL脚本。PAI-name...

主成分分析

页签 参数 描述 字段设置 选择特征列 输入表中用于分析的列名称。附加列 附加在降维数据表后的列。参数设置 信息量比例 降维后数据信息占原来的比例。特征分解方式 分解特征的方式,取值如下:CORR COVAR_SAMP COVAR_POP 数据转换方式 转换...

FeatureStore Python SDK

特征视图定义了数据从哪里来(DataSource)、需要进行哪些预处理或转换操作(如特征工程/Transformation)、特征的数据结构(包含特征名称和类型在内的特征schema)、数据存储的位置(OnlineStore/OfflineStore),并提供特征元信息管理,...

案例:搭建以图搜图系统

modified_lines=io.StringIO(''.join(list(process_file(features_file_path))))cursor.copy_expert(copy_command,modified_lines)connection.commit()选择特征向量文件中的一张图片对应的向量,进行搜索。例如,搜索ID为4999的图片。def ...

朴素贝叶斯

排除列 不参与训练的列,不能与 选择特征列 同时使用。强制转换列 解析规则如下:STRING、BOOLEAN及DATETIME类型的列,解析为离散类型。DOUBLE和BIGINT类型的列,解析为连续类型。说明 如果需要将BIGINT类型的列解析为CATEGORICAL,则必须...

什么是推荐全链路深度定制开发平台PAI-REC

根据结果数据选择特征特征工程的时间窗 提供各种诊断工具,帮助用户可视化观察推荐结果和召回数据 配合特征平台管理工具,能够更好管理特征,提高实验效率 提供各种技术服务,帮助用户用好解决方案,解答使用中的问题 源代码包括:数据...

GBDT二分类

页签 参数 描述 字段设置 选择特征列 输入数据源中,参与训练的特征列。支持DOUBLE及BIGINT类型。说明 特征列数量不能超过800。选择标签列 仅支持BIGINT类型。选择分组列 支持DOUBLE及BIGINT类型,默认将全表作为一组。参数设置 metric类型...

安全联邦学习-工作流FL

3、训练侧特征工程 选择和提取有用的特征,包括特征选择、特征变换、特征抽取和特征组合等。其中,对于Category特征和Numeric特征,均有对应的处理方案,详见组件说明。特征工程的配置可输出,供预测和评估流程使用。4、测试侧特征工程 ...

配置FeatureStore项目

FeatureStore 项目会对应一个离线数据源和在线...参数 说明 选择特征 选择当前离线视图中的特征,并配置特征别名。Label表名称 选择已创建的Label表名称。导出表名 提交后,后续会在MaxCompute中自动创建一张 train set 表,用于离线训练。

新建特征

本文介绍在蚂蚁隐私计算服务平台新建特征组的方法。操作步骤 登录 蚂蚁隐私计算服务平台。在左侧导航栏,选择 我的资源>数据资产。...类型 特征类型选择 STRING 或 DOUBLE。描述 选填,描述内容总长度不超过 64 个字符。配置完成后单击 确定。

评分卡预测

页签 参数 描述 字段设置 特征选择用于预测的原始特征列,默认选择全部。原样添加到结果表 选择不进行任何处理,直接附加到预测结果表中的列。例如ID列和目标列等。输出变量分 是否输出每个特征变量所对应的分数,最终的预测总得分为...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
Web应用防火墙 数知地球 AI Earth 对象存储 云服务器 ECS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用