基于大数据的推荐算法研究-基于大数据的推荐算法研究文档介绍内容-阿里云

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

DBS沙箱功能概览

相比现有基于大数据平台的历史数据离线分析方案，DBS沙箱功能提供原始数据库SQL接口，不需要开发人员编写离线分析脚本，并由于使用快照存储机制，存储成本也更低。费用说明更多信息，请参见 DBS沙箱费用。后续步骤自建MySQL应急恢复...

什么是推荐全链路深度定制开发平台PAI-REC

PAI-REC的推荐模块和链路均依托于阿里云飞天大数据架构，开发者可结合企业技术栈、开发习惯等灵活选型，并对推荐链路的代码可自定义开发，我们提供多种数据诊断分析、推荐结果调试、引擎发布管理等各种工具。通过a/b testing服务和实验报表...

基于MaxCompute进行大数据BI分析

本实践以电商行业为例，通过MaxCompute、DataWorks对业务数据和日志数据进行ETL处理，并同步至分析型数据库MySQL（AnalyticDB MySQL）进行实时分析，再通过Quick BI进行可视化展示。背景信息 MaxCompute：用于进行大规模数据计算，详情请...

Contextual Bandit 算法

利用 Bandit 算法设计的推荐算法可以较好地解决上述问题。根据是否考虑上下文特征，Bandit算法分为context-free bandit和contextual bandit两大类。算法伪代码（single-play bandit algorithm）：与传统方法的区别：每个候选商品学习一个...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

概述

PolarDB for AI 功能通过一系列MLOps和内置的模型解决了数据、特征和模型的割裂状态，实现了基于数据库的数据智能的一站式服务。本文介绍了 PolarDB for AI 功能的相关特性。背景信息随着数据的累积，数据驱动的智能应用（例如：搜索、...

选型指导

推荐全链路深度定制开发平台PAIREC选型主要包括如下两个部分：一、服务选型为便于开发者更加便捷地使用服务，将为企业开发者提供3种不同的推荐算法服务。序号服务类型说明目录价 1 标准版服务推荐引擎配置服务发布管理指标注册与...

典型使用场景

实时计算-HBase增强版（Lindorm）+Blink/Spark 基于数据的应用，如算法、智能运营、监控大屏等系统。通常需要实时获取业务系统产生的数据，基于数据更新进行实时计算。HBase具有高吞吐，低延迟，schemaFree，水平扩展等能力，被很多大数据...

组件参考：所有组件汇总

推荐方法 FM算法 FM（Factorization Machine）算法兼顾特征之间的相互作用，是一种非线性模型，适用于电商、广告及直播的推荐场景。ALS矩阵分解交替最小二乘ALS（Alternating Least Squares）算法的原理是对稀疏矩阵进行模型分解，评估...

数据科学计算概述

为满足用户基于MaxCompute进行大规模数据处理、分析、挖掘及模型训练的需求，MaxCompute提供了一套Python开发生态，让用户通过统一的Python编程接口一站式、高效地完成数据处理、加工及挖掘工作。发展路径 MaxCompute提供的Python开发生态...

客户案例

OceanBase 的高可用策略与传统的基于共享存储的方案有很大不同，OceanBase 采用 Share Nothing 架构，并且每个组件都有各自的持续可用方案。在部署架构上也引入了不同，支付宝的订单型业务采用了"同城三中心"的部署方式，具备单机和单 IDC ...

DataWorks产品安全能力介绍

为充分契合数据安全治理的核心理念与通用思路，DataWorks针对资产梳理、技术体系/运营体系建设提供了一系列全面的数据安全产品能力，基于“I（Identify）P（Protect）D（Detect）R（Respond）”理论框架，从资产识别、安全防护、行为检测、...

货品推荐概述

在数据变化较大时更新模型，以便保持商品推荐的准确度。基于商品标签数据集进行商品筛选，筛选出商品池，作为候选推荐商品的范围，请参见商品池。基于已有算法模型和商品池新建商品推荐任务，查看并使用推荐结果，请参见商品推荐任务。

工业视觉智能基本概念

数据集工业视觉智能产品的视觉智能模型通过深度学习来获得，而深度学习依赖于用户上传的样本数据，样本数据以数据集的形式进行组织与管理，避免对海量非结构化数据的查找。并能灵活的进行数据集的交叉组合及数据集内的数据筛选。用户可以...

内存型

Cpc 无 TairCpc是基于CPC（Compressed Probability Counting）压缩算法开发的数据结构，支持仅占用很小的内存空间对采样数据进行高性能计算，支持滚动窗口和滑动窗口，可以更好地支持流式运算，支持大数据分析中常用的聚合算子，如：...

Tair扩展数据结构概览

Cpc 无 TairCpc是基于CPC（Compressed Probability Counting）压缩算法开发的数据结构，支持仅占用很小的内存空间对采样数据进行高性能计算，支持滚动窗口和滑动窗口，可以更好地支持流式运算，支持大数据分析中常用的聚合算子，如：...

Tair命令概览

Cpc 无 TairCpc是基于CPC（Compressed Probability Counting）压缩算法开发的数据结构，支持仅占用很小的内存空间对采样数据进行高性能计算，支持滚动窗口和滑动窗口，可以更好地支持流式运算，支持大数据分析中常用的聚合算子，如：...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

基于对象特征的推荐

实验运行结束后，右键单击画布中的逻辑回归二分类-1，在快捷菜单，单击模型选项>导出PMML，即可导出训练完成的基于对象特征的推荐模型。右键单击画布中的预测，在快捷菜单，单击查看数据>预测结果输出，即可查看模型预测结果。查看模型...

Designer使用案例汇总

基于组件化EasyRec框架快速搭建深度推荐算法模型组件化EasyRec框架可以帮助你以“搭积木”的方式快速构建想要的模型结构。使用ALS算法实现音乐评分预测（旧版）介绍如何使用ALS矩阵分解算法预测用户对音乐的评分。智能风控解决方案案例...

基于向量分析的个性化推荐系统

目前很多成功的手机App都引入了个性化推荐算法，例如，新闻类的有今日头条新闻客户端、网易新闻客户端、阿里UC新闻客户端等；电商类的有拼多多、淘宝、天猫等。分析型数据库MySQL版推出的向量分析可以帮助您实现上述个性化推荐系统。个性化...

使用协同过滤实现商品推荐

在模板列表的 推荐算法-商品推荐区域，单击创建。在新建工作流对话框，配置参数（可以全部使用默认参数）。其中：工作流数据存储配置为OSS Bucket路径，用于存储工作流运行中产出的临时数据和模型。单击确定。您需要等待大约十秒钟，...

应用场景

商品推荐基于图的推荐算法是当前推荐系统中的一种重要的技术方向，在兼顾了推荐精度的同时，还能让模型具备较好的可解释性。通过图的共性关系发现和分析方法，通过计算共同邻居数进行相似节点推荐。适用于电商、保险的商品推荐场景。社交...

行业算法模型介绍

swing 即基于Swing的i2i算法，Swing是一种基于图结构计算商品相似度的算法,以高维的网络结构向二跳节点扩展，抗噪能力强，相比传统的CF准确性有较大的提升。相对于基准基于物品协同过滤更聚焦于找相似、找同款，更关注相关性，但计算复杂度...

关键词抽取

模块实现了基于自由形状变形网格变形算法遗传算法差分进化算法飞机表面积计算算法基于矩积分飞机体积计算算法开发基于 VTK 数据可视化格式工具 PAI命令 PAI-name KeywordsExtraction-DinputTableName=maple_...

规格计算器

QC：基于量化聚类的向量检索算法，召回结果正确率极高，占用资源较少，性能较好，在低维度向量数据集上有更好表现,内存及储存占用一般只有Linear和HNSW的1/4,适用于对召回率没有严苛要求的大数据量检索场景。Linear：线性检索，即暴力检索...

测试数据构建

数据管理DMS的测试数据构建功能拥有强大的算法引擎，支持批量生成各类随机值、地区名、虚拟IP地址等信息，可以大大减轻准备测试数据的负担。本文介绍构建测试数据的方法。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、...

构建数据仓库

构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业适用。方案优势：阿里巴巴大数据最佳实践，高性能、低成本、Serverless服务，免运维、全托管模式，让企业的大数据研发人员更聚焦在业务数据的开发、生产、治理。产品组合：...

PAI-REC推荐算法定制的最佳实践文档

阅读指引：为方便用户快捷体验PAI-REC产品，本文提供了一份公开数据集，用户可按照文档说明按步体验PAI-REC推荐算法定制的召回、特征工程、精排等关键功能的配置，生成代码并部署到 DataWorks 相应的业务流程中。1.克隆公开数据集我们在可...

列存索引中TopK算子的实现

在没有索引的情况下，此类查询在数据库中是通过基于堆的经典TopK算法来实现的，逻辑如下：在内存中维护一个大小为K的堆，堆顶元素是最小的元素，将遍历到的数据与堆顶元素比较，如果比堆顶元素大，替换堆顶元素，并重建堆。遍历完数据后，...

基于图算法实现金融风控

本文为您介绍如何基于图算法，实现金融风控。背景信息图算法通常适用于关系网状的业务场景。与常规结构化数据不同，图算法将数据整理为首尾相连的关系图谱，需要考虑边和点。PAI提供了丰富的图算法组件，包括K-Core、最大联通子图及标签...

客户案例

迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（“基于用户ID维度和内容类型的实时行为”、“获取用户的实时群聊ID...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

准备工作

AIRec推荐算法是需要用户的行为数据来学习用户喜好的。启动数据：指AIRec实例启动之前，准备好的已有的历史数据，该部分数据可以用于模型启动，让其更快的拥有推荐效果。实时数据：实例启动完成后，仅可以通过SDK上传的，增量的数据。...

模型配置

说明为了推荐的准确性，建议当训练数据量发生较大变化时更新模型。当系统检测到行为数据集的数据量增幅达到20%时，将在行为数据集名称后显示图标，提示您对模型进行更新。开始重新训练模型前，将出现弹窗，提示若模型训练成功，将消耗可用...

AIOps 解决方案专家服务内容说明

智能算法列表类型算法名称算法逻辑异常诊断类算法 One-Class SVM 基于历史批量数据的做算法学习并进行异常诊断异常诊断类算法孤立深林基于历史批量数据的做算法学习并进行异常诊断异常诊断类算法 Robust Covariance 基于历史批量...

用户洞察概述

功能简介用户洞察模块提供以下功能，帮助您进行消费者运营：数据源接入：提供多种（AnalyticDB MySQL 2.0、AnalyticDB MySQL 3.0、AnalyticDB PostgreSQL）的数据源的对接能力，用户可以基于此连接自己的消费者数据集，并基于产品内置的...

基于大数据的推荐算法研究

新品推荐