特征选择如何玩-特征选择如何玩文档介绍内容-阿里云

过滤式特征选择

根据您使用的不同特征选择方法，从所有稀疏或稠密格式的特征数据中选择并过滤出TopN的特征数据，同时保存为特征重要性表，实现了降低模型训练的难度和提高训练模型的精确度。本文为您介绍 Designer 提供的过滤式特征选择组件的参数配置和...

评分卡训练

评分卡是信用风险评估领域常用的建模工具，其原理是通过分箱输入将原始变量离散化后再使用线性模型（逻辑回归或线性回归等）进行模型训练，其中包含特征选择及分数转换等功能。同时也支持在训练过程中为变量添加约束条件。说明如果未指定...

特征稳定性PSI

PSI也可以用于进行特征选择，选取在不同时间段或不同数据集中分布稳定的特征，避免使用不稳定的特征对模型性能造成负面影响。在联邦学习任务中，PSI是通过联邦建模来实现的，可以保证数据的安全前提下，计算对应两方数据的PSI值。在PSI计算...

通用联邦学习模板

step 3 训练侧特征工程：选择和提取有用的特征，包括特征选择、特征变换、特征抽取和特征组合等。其中，对于Category特征和Numeric特征，均有对应的处理方案，详见组件说明。特征工程的配置可输出，供预测和评估流程使用。step 4 测试侧...

箱线图

选择枚举类型特征选择枚举类型的特征。说明在 Designer 中仅支持选择一个字段；在 Designer 中支持选择多个字段。分层样本采用数分层样本的采用数。方式二：PAI命令方式使用PAI命令方式，配置该组件参数。您可以使用SQL脚本组件进行PAI...

特征离散

页签参数描述字段设置离散的特征选择需要离散的特征。标签列如果您设置了该字段，则可以通过可视化方式查看特征到目标变量的 x-y 分布直方图。参数设置离散方法离散方法。取值如下：Isometric Discretization（等距离散）...

在FeatureStore中使用自动特征工程（AutoFE）

计费说明 AutoFE本身不收费，但在进行预处理、特征选择、分析和模型训练等操作时，会在MaxCompute预付费/按量付费Project中启动数据计算及模型训练任务，因此会产生MaxCompute相关的公共资源费用，计费详情请参见 MaxCompute计费概述。...

FM算法

组件页签参数描述 FM训练字段设置特征列根据输入数据表的特征选择特征列。支持STRING和DOUBLE类型的数据。标签列根据输入数据表的特征选择标签列。仅支持DOUBLE类型。高级选项仅在 Designer 控制台，需要配置该参数。如果选中高级...

特征分组统计

一、组件说明在联邦学习任务中，对于数值类特征，用户通常会关注特征的分组统计值，【特征数值统计】组件主要用于数值类特征的分组统计分析。...组件截图二、参数说明参数名称参数说明 选择特征字段选择想要进行统计计算的字段名，多选。

特征数值统计

一、组件说明在联邦学习任务中，对于数值类特征，用户通常会关注一些...组件截图二、参数说明参数名称参数说明 选择特征字段选择想要进行统计计算的字段名，多选。选择基础统计功能可以选择统计最大值、最小值、平均数、中位数，多选。

决策树

均方误差：父节点和子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失。费尔德曼均方误差：它使用费尔德曼均方误差，这种指标使用费尔德曼针对潜在分枝中的问题改进后的均方误差。平均...

随机森林

均方误差：父节点和子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失。平均绝对误差：它使用叶节点的中值来最小化 L1 损失。否均方误差均方误差平均绝对误差其他参数参数名参数...

线性支持向量机

页签参数是否必选描述字段设置特征列是输入列，根据输入数据表的特征选择特征列，支持BIGINT和DOUBLE类型的数据。标签列是根据输入数据表的特征选择标签列，支持BIGINT、DOUBLE及STRING类型。参数设置正样本的标签值否目标基准...

特征管理

添加特征表创建行业模板之后，进入开放搜索控制台页面，左侧导航栏选择：OpenSearch行业算法版>搜索算法中心>特征管理，然后点击添加特征表按钮：在添加MaxCompute特征表窗口，填写特征表名称，选择相应的MaxCompute 数据源，并...

GBDT二分类V2

两个组件当前的功能和参数支持情况，见下表：PS-SMART二分类参数对应本组件的参数是否稀疏格式是否为稀疏向量格式 选择特征列 选择特征列选择标签列选择标签列选择权重列选择权重列评估指标类型不适用，默认为 AUC 指标，可以在 ...

心脏病预测

本工作流首先通过类型转换组件将输入特征转换为DOUBLE类型（因为逻辑回归模型的输入数据必须为DOUBLE类型），然后使用过滤式特征选择 组件判断每个特征对于结果的影响（通过信息熵和基尼系数反映其影响）。同时，使用归一化组件将每个...

皮尔森相关系数CORR

一、组件说明皮尔森相关系数是一种用于衡量两个变量之间线性相关关系的统计量，可用于衡量两个变量之间的...组件截图二、参数说明字段设置参数名称参数说明 选择特征字段选择想要进行CORR计算的字段名，多选，仅可选择数值类型字段。

方差膨胀系数VIF

一、组件说明方差膨胀系数（VIF）是用于检测多元回归模型中自变量之间多重共线性的指标。VIF是一个统计量，衡量自变量之间线性相关性的强度。...组件截图二、参数说明参数名称参数说明 选择特征字段选择想要进行VIF计算的字段名，多选。

条件随机场

Dlifecycle=28-DcoreNum=10 参数名称是否必选描述默认值 inputTableName 是输入特征数据表无 inputTablePartitions 否输入特征表选择的分区全表 featureColNames 否输入表选择的特征列默认选择全部，自动排除label列。...

组件参考：所有组件汇总

过滤式特征选择 该组件将根据您使用的不同特征选择方法，从所有稀疏或稠密格式的特征数据中选择并过滤出TopN的特征数据。特征编码该组件是将非线性特征通过GBDT编码成线性特征。one-hot编码您可以通过该组件后数据会变成稀疏，输出结果也...

定制排序模型

并添加排序模型特征（需填写排序模型特征名称，选择排序模型特征类型和 选择特征，参考：特征管理），点击确定即可：说明排序模型特征类型参考：定制排序模型特征配置规范 选择特征参考：系统内置基础特征创建模型描述流程创建独...

PS线性回归

页签参数描述字段设置 选择特征列输入数据源中，参与训练的特征列。选择标签列支持DOUBLE及BIGINT类型。是否稀疏格式使用KV格式表示稀疏格式。kv间的分隔符默认使用空格分隔。key与value分隔符默认使用半角冒号（:）分隔。参数设置...

随机森林特征重要性

页签参数描述字段设置 选择特征列输入表中，用于训练的特征列。默认选中除Label外的所有列，为可选项。选择目标列该参数为必选项。单击图标，在选择字段对话框中，输入关键字搜索列，选中后单击确定。参数设置并行计算核数并行...

PS-SMART多分类

右键单击 PS-SMART多分类-1 组件，在快捷菜单中，选择查看数据>输出特征重要性表，查看特征重要性。其中：id 列表示传入的特征序号。因为该示例的输入数据是KV格式，所以 id 列表示KV对中的 key。value 列表示特征重要性类型，默认为 gain...

条件随机场预测

请选择特征列要进行标注的单词，以及该单词对应的特征。请选择目标列选择目标列。预测结果列列名预测结果列的名称，默认值为prediction_result。预测分数列列名预测分数列的名称，默认值为prediction_score。预测详细列列名预测详细列...

线性模型特征重要性

页签参数描述字段设置 选择特征列输入表中，用于训练的特征列。默认选中除标签列（例如Label）外的所有列，为可选项。选择目标列该参数为必选项。单击选择字段，选择标签列。输入表数据是否为稀疏格式可选项。执行调优计算核心数 ...

PS-SMART二分类训练

右键单击 PS-SMART二分类训练-1 组件，在快捷菜单，选择查看数据>输出特征重要性表，查看特征重要性表。其中：id：表示传入的特征序号。因为该示例传入的特征为 f0、f1、f2、f3、f4 及 f5，所以 id 列的 0 表示 f0 特征列，id 列的 4 表示...

PS-SMART回归

右键单击 PS-SMART回归-1 组件，在快捷菜单，选择查看数据>输出特征重要性表，查看特征重要性。其中 id 列表示传入的特征序号。因为该示例的输入数据是KV格式，所以 id 列表示KV对中的 key。该特性重要性表中仅有2个特性，表示树在分裂...

数据视图

页签参数描述字段设置 选择特征列用来表现训练样本数据特征的列。选择目标列用来进行训练样本数据的目标列。枚举特征勾选的特征将被视作枚举特征处理。k:v，k:v稀疏数据格式是否采用KV格式的稀疏数据。参数设置连续特征离散区间数 ...

散点图

参数描述 选择特征列选择用来表现训练样本数据特征的列。分类标签列标签字段。抽样样本数抽样的样本数量。方式二：PAI命令方式使用PAI命令方式，配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用，详情请参见 SQL脚本。PAI-name...

主成分分析

页签参数描述字段设置 选择特征列输入表中用于分析的列名称。附加列附加在降维数据表后的列。参数设置信息量比例降维后数据信息占原来的比例。特征分解方式分解特征的方式，取值如下：CORR COVAR_SAMP COVAR_POP 数据转换方式转换...

FeatureStore Python SDK

特征视图定义了数据从哪里来（DataSource）、需要进行哪些预处理或转换操作（如特征工程/Transformation）、特征的数据结构（包含特征名称和类型在内的特征schema）、数据存储的位置（OnlineStore/OfflineStore），并提供特征元信息管理，...

案例：搭建以图搜图系统

modified_lines=io.StringIO(''.join(list(process_file(features_file_path))))cursor.copy_expert(copy_command,modified_lines)connection.commit()选择特征向量文件中的一张图片对应的向量，进行搜索。例如，搜索ID为4999的图片。def ...

朴素贝叶斯

排除列不参与训练的列，不能与 选择特征列同时使用。强制转换列解析规则如下：STRING、BOOLEAN及DATETIME类型的列，解析为离散类型。DOUBLE和BIGINT类型的列，解析为连续类型。说明如果需要将BIGINT类型的列解析为CATEGORICAL，则必须...

什么是推荐全链路深度定制开发平台PAI-REC

根据结果数据选择特征和特征工程的时间窗提供各种诊断工具，帮助用户可视化观察推荐结果和召回数据配合特征平台管理工具，能够更好管理特征，提高实验效率提供各种技术服务，帮助用户用好解决方案，解答使用中的问题源代码包括：数据...

GBDT二分类

页签参数描述字段设置 选择特征列输入数据源中，参与训练的特征列。支持DOUBLE及BIGINT类型。说明特征列数量不能超过800。选择标签列仅支持BIGINT类型。选择分组列支持DOUBLE及BIGINT类型，默认将全表作为一组。参数设置 metric类型...

安全联邦学习-工作流FL

3、训练侧特征工程选择和提取有用的特征，包括特征选择、特征变换、特征抽取和特征组合等。其中，对于Category特征和Numeric特征，均有对应的处理方案，详见组件说明。特征工程的配置可输出，供预测和评估流程使用。4、测试侧特征工程 ...

配置FeatureStore项目

FeatureStore 项目会对应一个离线数据源和在线...参数说明选择特征选择当前离线视图中的特征，并配置特征别名。Label表名称选择已创建的Label表名称。导出表名提交后，后续会在MaxCompute中自动创建一张 train set 表，用于离线训练。

新建特征组

本文介绍在蚂蚁隐私计算服务平台新建特征组的方法。操作步骤登录蚂蚁隐私计算服务平台。在左侧导航栏，选择我的资源>数据资产。...类型特征类型选择 STRING 或 DOUBLE。描述选填，描述内容总长度不超过 64 个字符。配置完成后单击确定。

评分卡预测

页签参数描述字段设置特征列选择用于预测的原始特征列，默认选择全部。原样添加到结果表选择不进行任何处理，直接附加到预测结果表中的列。例如ID列和目标列等。输出变量分是否输出每个特征变量所对应的分数，最终的预测总得分为...

特征选择如何玩

新品推荐