特征工程

通过推荐算法定制生成的特征工程,对原始数据集(包括用户表、物料表和行为表等)进行处理,并生成新的特征表,以供后续的召回和排序使用。前提条件 已开通PAI(Designer),并创建默认工作空间。具体操作,请参见 开通PAI并创建默认工作...

在FeatureStore中使用自动特征工程(AutoFE)

本文介绍在FeatureStore如何运用自动特征工程技术(AutoFE)生成新特征,为用户提供一些参考建议与启示。通过AutoFE生成的pipeline模型,对训练集和测试集执行特征转换操作,从而提升机器学习或深度学习模型的效果。什么是AutoFE AutoFE...

推荐算法定制概述

为了演示如何使用Designer中EasyRec组件来完成推荐算法中特征工程、样本生成、排序、向量召回、模型评估等功能,PAI准备了以下几个案例帮助您更好的理解以上功能:特征工程 排序 DSSM向量召回 基于etrec的U2I2I召回 以上案例中的代码均来自...

FeatureStore使用案例汇总

在FeatureStore中使用自动特征工程(AutoFE)在FeatureStore如何运用自动特征工程技术(AutoFE)生成新特征,为用户提供参考建议与启示。通过AutoFE生成的pipeline模型,对训练集和测试集执行特征转换操作,从而提升机器学习或深度学习模型...

通用联邦学习模板

一、模板说明 通过提供通用机器学习模板,展示完整的数据收集、特征工程、模型选择和训练、模型评估、模型部署和应用以及模型复用的一系列算子的使用方法,使用户能够高效构建准确的联邦学习模型。二、使用步骤 通过提供通用机器学习模板,...

安全联邦学习-工作流FL

3、训练侧特征工程 选择和提取有用的特征,包括特征选择、特征变换、特征抽取和特征组合等。其中,对于Category特征和Numeric特征,均有对应的处理方案,详见组件说明。特征工程的配置可输出,供预测和评估流程使用。4、测试侧特征工程 ...

排序

推荐解决方案-排序的输入包括经过特征工程处理后的用户特征表、物品特征表、用户行为表,输出为排序模型,可用于模型部署。本文为您介绍推荐解决方案-排序的实现方法。前提条件 已运行推荐解决方案-特征工程工作流模板生成排序需要的数据集...

使用须知

三、确认已了解并开通如下资源 以下为完成离线建模所需云产品 序号 云资源名称 用途 1 云原生大数据计算服务MaxCompute 数据清洗、特征工程、准备训练样本 2 大数据开发治理平台DataWorks 数据清洗、特征工程、模型训练和评估、更新模型、...

推荐解决方案综述

使用如下任何一种算法挖掘特征(User和Item本身特征、User-Item交叉特征及Context特征):挖掘特征工程特征工程。自动挖掘Autocross特征:Auto ML自动特征工程使用说明。使用FM算法自动挖掘二阶交叉特征:使用FM-Embedding实现推荐召回。...

产品动态

GDB AutoML 阿里云图数据库自动机器学习(Graph Database Auto Machine Learning,简称GDB AutoML)是一个面向企业和个人开发者的机器学习集成开发环境,实现将机器学习应用于现实问题的端到端流程自动化的组件,将算法选择、特征工程、...

基于对象特征的推荐

进行特征工程,例如数据的预处理和特征衍生。特征衍生的作用是扩充数据维度,使数据能更大限度地展示业务特点。将数据拆分为两份。其中一份作为训练数据,通过分类算法生成二分类模型。另一份作为预测数据,通过预测组件对模型效果进行测试...

什么是图数据库自动机器学习?

阿里云图数据库自动机器学习(Graph Database Auto Machine Learning,简称GDB Automl)是一个面向企业和个人开发者的机器学习集成开发环境,实现将机器学习应用于现实问题的端到端流程自动化的组件,将算法选择、特征工程、参数调整、迭代...

什么是推荐全链路深度定制开发平台PAI-REC

根据结果数据选择特征和特征工程的时间窗 提供各种诊断工具,帮助用户可视化观察推荐结果和召回数据 配合特征平台管理工具,能够更好管理特征,提高实验效率 提供各种技术服务,帮助用户用好解决方案,解答使用中的问题 源代码包括:数据...

PAI语法

PAI组件包括数据预处理、特征工程、统计分析、异常检测、推荐算法、时间序列、视觉类算法、语音类算法等。不同的PAI组件,其调用参数一般不同,通常情况下,PAI命令调用语法格式如下所示。PAI-name COMPONENT[-project algo_public][-...

评分卡训练

基本概念 以下介绍评分卡训练过程中的相关概念:特征工程 评分卡与普通线性模型的最大区别在于进行线性模型训练之前会对数据进行一定的特征工程处理。本文中,评分卡提供了如下两种特征工程方法:先通过分箱组件将特征离散化,再将每个变量...

Pipeline部署在线服务

Designer支持将一个包含数据预处理、特征工程、模型预测的离线数据处理pipeline,打包成一个Pipeline模型,并一键部署为EAS在线服务。使用限制 仅支持Alink框架的算法组件(即左上角有紫色小点标识的组件)。所有需要部署的模型涉及的训练...

FeatureStore概述

自动化特征工程 FeatureStore计划提供自动化的特征工程功能,通过机器学习技术,自动挖掘新特征,减少研发团队的手动特征工程工作量。特征监控 FeatureStore计划提供特征的监控和报警功能,及时发现和解决特征的异常和问题,减少团队的故障...

功能特性

一站式的机器学习体验 PAI支持从数据上传、数据预处理、特征工程、模型训练、模型评估到模型发布的机器学习全流程。支持主流深度学习框架 PAI支持TensorFlow、Caffe及MXNet等主流的机器学习框架。可视化的建模方式 Designer 封装了经典的...

模型预测

对于Alink类型的算法组件,Designer支持将一个包含数据预处理、特征工程、模型预测的离线数据处理pipeline,打包成一个离线模型,并一键部署至EAS变成在线服务。详情见 Pipeline部署在线服务。支持在 Designer 模型产出的组件下游接入更新...

异常指标监控

该方案的要求如下:人力要求:需要熟悉机器学习经典算法,尤其是特征工程及二分类算法。开发周期:1~2天。数据要求:上千条的标签数据,该数据标记了异常数据和正常数据。数据集 本工作流使用的数据为系统级别监控日志数据,共22544条数据...

功能更新【2023年】

降低联邦学习使用门槛 内置多个个组件,包含数据处理、特征工程、机器学习+训练+预测+评估等组件,支持XGBOOST、逻辑回归、线性回归、MLP等常用算法,支持二分类、多分类、回归场景,能满足线索评级、金融评分卡、营销CTR/CVR模型等场景...

DSSM向量召回

前提条件 已运行推荐解决方案-特征工程工作流模板生成向量召回的数据集,具体操作请参见 特征工程。rec_sln_demo_user_table_preprocess_all_feature_v2 rec_sln_demo_item_table_preprocess_all_feature_v2 rec_sln_demo_behavior_table_...

使用可视化大屏查看分析报告

数据可视化分析:相关系数矩阵 直方图 散点图 箱线图 数据视图 特征工程:线性模型特征重要性 随机森林特征重要性 模型评估:混淆矩阵 聚类模型评估 多分类评估 二分类评估 模型可视化:GBDT二分类 GBDT回归 随机森林 XGBoost训练 统计分析...

模型预测概述

Pipeline部署在线服务 对于Alink类型的算法组件,Designer支持将一个包含数据预处理、特征工程、模型预测的离线数据处理Pipeline,打包成一个离线模型,并一键部署为EAS在线服务。在线模型服务定时自动更新 将训练获得的模型部署为在线服务...

Designer使用案例汇总

推荐算法定制 案例名称 描述 特征工程 介绍推荐算法定制生成的特征工程。DSSM向量召回 介绍推荐解决方案中生成的DSSM(Deep Structured Semantic Model)向量召回。排序 介绍推荐解决方案-排序的实现方法。基于etrec的U2I2I召回 介绍推荐...

Lasso回归预测

可视化配置组件参数 输入桩 输入桩(从左到右)数据类型 建议上游组件 是否必选 预测输入模型 无 Lasso回归训练 是 预测输入数据 无 读数据表 特征工程 数据预处理 是 组件参数 页签 参数 描述 字段设置 算法保留列名 选择算法保留列的名称...

岭回归预测

可视化配置组件参数 输入桩 输入桩(从左到右)数据类型 建议上游组件 是否必选 预测输入模型 无 岭回归训练 是 预测输入数据 无 读数据表 特征工程 数据预处理 是 组件参数 页签 参数 描述 字段设置 算法保留列名 选择算法保留列的名称。...

岭回归训练

可视化配置组件参数 输入桩 输入桩(从左到右)数据类型 建议上游组件 是否必选 数据 无 读数据表 特征工程 数据预处理 是 模型 无 读数据表 否 组件参数 页签 参数 描述 字段设置 标签列名 输入表中的标签列名。特征列名数组 如果您已经...

Lasso回归训练

可视化配置组件参数 输入桩 输入桩(从左到右)数据类型 建议上游组件 是否必选 数据 无 读数据表 特征工程 数据预处理 是 模型 Lasso模型(用做增量训练)读数据表(模型数据表)Lasso回归训练 否 组件参数 页签 参数 描述 字段设置 标签...

数据诊断

用户偏好统计周期分析 期望通过调整k找到曾现率是80%或者90%的k'值,用于后续特征工程计算用户偏好特征和统计训练样本天数。当k'天的曾现率低于90%,则对于剩下的10%用户需要考虑冷启动策略。两表关联分析 用于检查行为数据的可用性、id...

工作原理

训练集的时间长度需大于12天,因为模型训练任务需要历史一周的数据做为特征工程的前提条件;验证集长度需大于3天,因为需要三天的数据给出验证报告,更好地说明模型的拟合程度、鲁棒性以及表现水平。特征工程:包括同环比特征、平移特征、...

保障离线在线一致性的CTR预估方案

您在线上环境进行模型预测时,也可以使用离线训练时的数据预处理和特征工程逻辑,以保障线上线下处理流程的一致性。前提条件 已创建工作空间,详情请参见 创建工作空间。已将MaxCompute资源关联到工作空间,详情请参见 管理工作空间。数据...

用户偏好统计周期分析

曾期望通过调整k找到曾现率是80%或者90%的k'值,用于后续特征工程计算用户偏好特征和统计训练样本天数。当k'天的曾现率低于90%,则对于剩下的10%用户需要考虑冷启动策略。警告 周期留存率统计周期,指周期对周期的存留率,比如 1 月份的...

MTable聚合

可视化配置组件参数 输入桩 输入桩(从左到右)数据类型 建议上游组件 是否必选 数据 无 读数据表 特征工程 数据预处理 是 组件参数 页签 参数 描述 字段设置 选择的列名 计算列对应的列名列表。分组列名数组 分组列名,多列,可选,默认不...

什么是工业大脑AICS

全栈算法开发平台:支持从数据上传、数据预处理、特征工程、模型训练、模型评估到模型发布的机器学习全流程。开放集成能力:通过开放API可方便的集成第三方部署在本地的数采及控制系统,构建闭环的本地反控能力。二次开发能力:完全支持...

梯度提升决策树算法(GBDT)

同时,GBDT算法相比于其它算法需要更少的特征工程,可以不用做特征标准化,也不必关心特征之间是否相互依赖,能很好的处理字段缺失的数据,健壮性好。使用场景 GBDT通常被应用在二分类、多分类以及排序等场景。例如,在个性化商品推荐场景...

DeepFM算法

简介 DeepFM将深度学习模型(DNN)和因子分解机(FM)模型结合,同时支持学习低阶显式特征组合和高阶隐式特征组合,不需要人工做特征工程,常用于推荐系统或广告系统。输入通常有以下两类特征:类别特征(Categorical Feature):字符串...

用户流失预警风控

② 通过 one-hot编码 组件和 SQL脚本 实现特征工程建模,将原始字符型特征转化为数值型。以目标字段 churn 为例,原始数据为 Yes 或 No,可以通过SQL语句将 Yes 转化为1,将 No 转化为0,示例如下。select(case churn when 'Yes' then 1 ...

EasyRec Processor(推荐打分服务)

EAS 内置的EasyRec Processor支持将EasyRec或TensorFlow训练的推荐模型部署为打分服务,并具备集成特征工程的能力。通过联合优化特征工程和TensorFlow模型,EasyRec Processor能够实现高性能的打分服务。本文为您介绍如何部署及调用EasyRec...
共有124条 < 1 2 3 4 ... 124 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
DataV数据可视化 Web应用防火墙 数知地球 AI Earth 视觉智能开放平台 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用