文章目录

概念

推荐系统是什么？每天被短视频平台控制，没法专注学习的朋友都对推荐算法深恶痛绝。虽然笔者没有接触过相关系统的设计，但还是决定浅学习一下推荐系统相关的知识。

对比

常与推荐系统相提并论的包括搜索和广告系统，对比三者：

从业务角度看：

广告：一个公司要搭建广告系统，它的商业目的非常直接，就是要解决公司的收入问题。所以广告算法的目标就是为了直接增加公司收入。
推荐：推荐算法虽然本质上也是为了增加公司收入，但其直接目标是为了增加用户的参与度。只有用户的参与度高了，才能让广告系统有更多的 inventory，进而增加公司营收。
搜索：搜索要解决的关键问题全部是围绕着用户输入的搜索词展开的。虽然现在搜索越来越强调个性化的结果，但是一定要清楚的是，推荐算法强调的个性化永远只是搜索算法的补充。“围绕着搜索词的信息高效获取问题“才是搜索算法想解决的根本问题。

从优化目标来看：

广告：各大公司广告算法的预估目标非常统一，就是预估CTR（Click-Through-Rate 点击率）和 CVR（Conversion Rate 转化率）。这是跟当前效果类广告的产品形态密切相关的。因为CPC和CPA计价仍是效果类广告系统的主流计价方式。所以只有预估出CTR和CVR，才能反向推导出流量的价值，并进一步给出合理的出价。所以针对这样的目标，广告算法非常看重把预估偏差当作首要的评价指标。
推荐：推荐算法的预估目标就不尽相同，视频类更多倾向于预测观看时长，新闻类预测CTR，电商类预估客单价等等这些跟用户参与度最相关的业务指标。而且由于推荐系统的推荐场景是生成一个列表，所以更加关注 item 间的相对位置，因此评估阶段更倾向于用 AUC （area under curve），gAUC（group AUC），mAP（mean Average Precision 平均准确度均值）这些指标作为评价标准。
搜索：搜索的预估目标又有所不同，因为相比广告和推荐，搜索某种意义上说是存在着“正确答案”的。所以搜索非常看重能否把这些正确答案给召回回来（广告和推荐也关注召回率，但重要性完全不同）。所以搜索系统往往会针对召回率，mAP，NDCG（Normalized Discounted cumulative gain 归一化折损累计增益）这些指标进行优化。

总的来看，广告算法是要“估得更准”，推荐算法是要整体上“排的更好”，搜索算法是要“搜的更全”。

推荐系统架构

系统架构

系统架构设计思想是大数据背景下如何有效利用海量和实时数据，将推荐系统按照对数据利用情况和系统响应要求出发，将整个架构分为离线层、近线层、在线层三个模块。

由于大数据量和实时性的矛盾，因此这三个层面分别用于解决不同的问题：

离线层：不用实时数据，不提供实时响应；
近线层：使用实时数据，不保证实时响应；
在线层：使用实时数据，保证实时在线服务；

这种设计思想最经典的就是Netflix在2013年提出的架构：

作用划分：

在线层
客户端和服务端之间的交互，用于记录用户真实行为，即埋点。比如用户看到了哪些内容，和哪些内容发生了交互，和哪些没有发生了交互。如果再精细一点，还会记录用户停留的时间，用户使用的设备等等。除此之外还会记录行为发生的时间，行为发生的session等其他上下文信息。

既然我们要做推荐系统，要分析用户行为，还要训练模型，显然需要数据。需要数据，就需要记录。
近线层

流处理平台准实时数据处理，也是记录用户行为数据，但会由于更加复杂、数据量大等元素，因此需要计算。例如用户在观看这个内容之前还看过哪些内容，和哪些内容发生过交互。理想情况这部分数据也需要做成实时，但由于这部分数据量比较大，并且逻辑也相对复杂，所以很难做到非常实时，一般都是通过消息队列加在线缓存的方式做成准实时。
离线层

离线处理是数据处理的大头。所有“脏活累活”复杂的操作都是在离线完成的，比如说一些join操作。后端只是记录了用户交互的商品id，我们需要商品的详细信息怎么办？需要去和商品表关联查表。显然数据关联是一个非常耗时的操作，所以只能放到离线来做。

离线层

数据处理、数据存储；
特征工程、离线特征计算；
离线模型的训练；

近线层

离线层无法反应用户的实时兴趣变化，这就促使了近线层的产生。

它适合处理一些对延时比较敏感的任务，比如：

特征的事实更新计算：例如统计用户对不同type的ctr，推荐系统一个老生常谈的问题就是特征分布不一致怎么办，如果使用离线算好的特征就容易出现这个问题。近线层能够获取实时数据，按照用户的实时兴趣计算就能很好避免这个问题。
实时训练数据的获取：比如在使用DIN、DSIN这行网络会依赖于用户的实时兴趣变化，用户几分钟前的点击就可以通过近线层获取特征输入模型。
模型实时训练：可以通过在线学习的方法更新模型，实时推送到线上；

在线层

最大的特点是对响应延时有要求，因为它是直接面对用户群体的。

模型在线服务；包括了快速召回和排序；
在线特征快速处理拼接：：根据传入的用户ID和场景，快速读取特征和处理；
AB实验或者分流：根据不同用户采用不一样的模型，比如冷启动用户和正常服务模型；
运筹优化和业务干预：比如要对特殊商家流量扶持、对某些内容限流；

在线服务的数据源就是我们在离线层计算好的每个用户和商品特征，我们事先存放在数据库中，在线层只需要实时拼接，不进行复杂的特征运算，然后输入近线层或者离线层已经训练好的模型，根据推理结果进行排序，最后返回给后台服务器，后台服务器根据我们对每一个用户的打分，再返回给用户。

算法架构

算法架构设计思想就是对数据层层建模，层层筛选，帮助用户从海量数据中找出其真正感兴趣的部分。主要分为召回、粗排、排序、重排四个环节。

召回

召回层的主要目标时从推荐池中选取几千上万的item，送给后续的排序模块。由于召回面对的候选集十分大，且一般需要在线输出，故召回模块必须轻量快速低延迟。由于后续还有排序模块作为保障，召回不需要十分准确，但不可遗漏（特别是搜索系统中的召回模块），保证多样性。

目前基本上采用多路召回解决范式，分为非个性化召回和个性化召回。个性化召回又有content-based、behavior-based、feature-based等多种方式。

召回主要考虑的内容有：

考虑用户层面：用户兴趣的多元化，用户需求与场景的多元化：例如：新闻需求，重大要闻，相关内容沉浸阅读等等
考虑系统层面：增强系统的鲁棒性；部分召回失效，其余召回队列兜底不会导致整个召回层失效；排序层失效，召回队列兜底不会导致整个推荐系统失效
系统多样性内容分发：图文、视频、小视频；精准、试探、时效一定比例；召回目标的多元化，例如：相关性，沉浸时长，时效性，特色内容等等
可解释性推荐一部分召回是有明确推荐理由的：很好的解决产品性数据的引入；

粗排

粗排的原因是有时候召回的结果还是太多，精排层速度还是跟不上。是精排前的一轮过滤机制，减轻精排模块的压力。

粗排主要考虑三个方面：

根据精排模型中的重要特征，来做候选集的截断。
有一些召回设计，比如热度或者语义相关的这些结果，仅考虑了item侧的特征，可以用粗排模型来排序跟当前User之间的相关性，据此来做截断，这样是比单独的按照item侧的倒排分数截断得到更加个性化的结果，
最后是算法的选型要在在线服务的性能上有保证，因为这个阶段在pipeline中完成从召回到精排的截断工作，在延迟允许的范围内能处理更多的召回候选集理论上与精排效果正相关

精排

获取粗排模块的结果，对候选集进行打分和排序。精排需要在最大时延允许的情况下，保证打分的精准性，是整个系统中至关重要的一个模块，也是最复杂，研究最多的一个模块。

精排和粗排层的基本目标是一致的，都是对商品集合进行排序，但是和粗排不同的是，精排只需要对少量的商品(即粗排输出的商品集合的topN)进行排序即可。因此，精排中可以使用比粗排更多的特征，更复杂的模型和更精细的策略（用户的特征和行为在该层的大量使用和参与也是基于这个原因）。

重排

重排序的原因是因为多个物品之间往往是相互影响的，而精排序是根据 PointWise 得分，容易造成推荐结果同质化严重，有很多冗余信息。而重排序面对的挑战就是海量状态空间如何求解的问题，一般在精排层我们使用AUC作为指标，但是在重排序更多关注NDCG等指标。

👉 常见的有三种优化目标：Point Wise、Pair Wise 和 List Wise.

– **Point-wise** 是最简单的损失函数定义**，**就是输入用户特征和单个物品特征，对这个物品进行打分，物品之间的排序，就是谁应该在谁前面，不用考虑。优点是简单直接效率高，缺点是没有考虑文档间的依赖性和相对顺序。
– **Pair-wise** 损失在训练模型时，直接用**两个物品的顺序关系**来训练模型，就是说优化目标是物品A排序要高于物品B，类似这种优化目标。缺点是只考虑了两篇文档的相对顺序，没有考虑他们出现在搜索结果列表中的位置
– **List-wise** 的 Loss **更关注整个列表中物品顺序关系**，会从列表整体中物品顺序的角度考虑，来优化模型。将整个item序列看作一个样本，通过直接优化信息检索的评价方法和定义损失函数两种方法来实现。List-wise损失函数因为**训练数据的制作难**，训练速度慢，在线推理速度慢等多种原因，尽管用的还比较少，但是因为更注重排序结果整体的最优性，往往**效果也是最好**的，所以也是目前很多推荐系统正在做的事情。

重排序在业务中，获取精排的排序结果，还会根据一些策略、运营规则参与排序，比如强制去重、间隔排序、流量扶持等、运营策略、多样性、context上下文等，重新进行一个微调。重排序更多的是List Wise作为优化目标的，它关注的是列表中商品顺序的问题来优化模型，但是一般 List Wise 因为状态空间大，存在训练速度慢的问题。

混排

多个业务线都想在Feeds流中获取曝光，则需要对它们的结果进行混排。比如推荐流中插入广告、视频流中插入图文和banner等。可以基于规则策略（如广告定坑）和强化学习来实现。

推荐系统概念及架构

概念

对比

推荐系统架构

系统架构

离线层

近线层

在线层

算法架构

召回

粗排

精排

重排

混排

推荐系统技术栈

推荐系统算法

UserCF

ItemCF

发表评论取消回复

概念

对比

推荐系统架构

系统架构

离线层

近线层

在线层

算法架构

召回

粗排

精排

重排

混排

推荐系统技术栈

推荐系统算法

UserCF

ItemCF

发表评论 取消回复

发表评论取消回复