推荐算法工程师需要掌握哪些核心技能点?

近半年阅读了大量微信公众号、知乎专栏等关于召回、排序算法相关的文章资料,感受:大而广,多而杂。 故来请教知乎上的前辈,作为一名推荐算法工程师,面对日新…
关注者
191
被浏览
70,470

7 个回答


经过多年的发展,推荐系统已经成为互联网产品的标配。很多产品甚至在第一版就被投资人或者创始人要求必须“个性化”,可见,推荐系统已经飞入寻常百姓家。而作为推荐系统的缔造者,推荐系统工程师也越来越受欢迎,本文总结了推荐系统工程师常用的技能树,供大家参考。

另文末附朋友公司正在招聘的推荐算法工程师岗位职责和任职要求,供参考。

一、掌握核心原理的技能

1、数学:微积分,统计学,线性代数;

2、周边学科:信息论基础;

3、推荐算法: CF,LR,SVM,FM,FTRL,GBDT,RF,SVD,RBM,RNN,LSTM,RL;

4、数据挖掘:分类,聚类,回归,降维,特征选择,模型评价。

二、实现系统检验想法的技能

1、操作系统: Linux;

2、编程语言: Python/R, Java/C++/C,sql,shell;

3、RPC框架: thrift, Dubbo,gRPC;

4、web服务: tornado, django, flask;

5、数据存储: redis, hbase, cassandra, mongodb, mysql, hdfs,hive, kafka, elasticsearch;

6、机器学习/深度学习: Spark MLib,GraphLab/GraphCHI,Angel,MXNet,TensorFlow,Caffe, Xgboost,VW,libxxx;

7、文本处理: Word2vec,Fasttext,Gensim,NLTK;

8、矩阵分解: Spark ALS,GraphCHI,implicit,qmf,libfm;

9、相似计算: kgraph, annoy,nmslib, GraphCHI, columnSimilarities(spark.RowMatrix);

10、实时计算: Spark Streaming, Storm,Samza。

三、为效果负责的技能

1、熟悉常见离线效果指标:准确率,召回率,AUC,基尼系数;

2、能够定义产品效果指标:点击率,留存率,转换率,观看完整率;

3、会做对比试验并分析实验结果:指标数据可视化;

4、知道常见推荐产品的区别: Feed流推荐,相关推荐,TopN推荐,个性化推送;

四、其他软技能

1、英文阅读:读顶级会议的论文、一流公司和行业前辈的经典论文和技术博客,在Quora和Stack Overflow上和人交流探讨;

2、代码阅读:能阅读开源代码,从中学习优秀项目对经典算法的实现;

3、沟通表达:能够和其他岗位的人员沟通交流,讲明白所负责模块的原理和方法,能听懂非技术人员的要求和思维,能分别真需求和伪需求并且能达成一致。


附:某公司在招推荐算法工程师岗位职责及任职要求。
岗位职责:
1、负责数据分析及建模,提供高质量的匹配推荐服务;
2、协助及独立完成各种机器学习(包括深度学习)算法;
3、负责构建公司数据分析与数据挖掘业务分析体系,整体架构设计、规划,充分发挥数据的价值,提高数据质量,促进公司业务更好的发展;
4、通过建立业务的数据分析模型来指导业务的发展,对数据库信息进行深度挖掘和有效利用,充分实现数据的商业价值,构建公司核心竞争力。
任职要求:
1、全日制本科及以上学历、计算机/统计学/经济学等相关专业;
2、熟悉Python开发、掌握常用数据结构及算法;
3、有至少1年推荐系统实际项目经验,掌握基于内容推荐、协同过滤(CF),掌握常用机器学习算法的应用,如LR、决策树、GDBT、SVM等,掌握聚类、降维相关的主要算法的应用;
4、具备深厚数据建模(机器学习,深度学习,推荐系统)和分析理论知识和经验;
5、有较强的分析问题和解决问题的能力,掌握抽取关键特征的方法;
6、掌握推荐系统评估方法,能对系统进行持续评估、改进;
7、具备较强的问题定位、分解、解决能力及计划和组织能力。

总结

第一篇:训练样本 / 特征工程 / 模型 / 评价指标

未完待续 (第二篇:线上serving / 优化 )




1. 模型的样本数据源?

在C端互联网电商场景中,样本数据可以是前端埋点日志表,或者是服务端落库的请求日志表。

在传统行业的场景中,样本数据可以是一个季度的销量信息等等。


2. 正负样本的选取?

通常情况下,如果我们关心的是商品的转化cvr(购买),那么我们将数据中被购买的商品作为正样本,未被购买的作为负样本;同理,如果我们关心商品的点击率ctr,那么将用户点过的商品作为正样本,没点击的作为负样本。

那么是否可以对这种样本选取做优化呢?可以的。对于CVR预估来说,以上方法中,负样本包括了用户没有购买的商品,但这其中可能包括了用户点击过的商品。我们在建模的时候,可以显式的把这类负样本去掉,只留下曝光但未点击未购买的商品。另外,如果能够取得用户的负反馈信息,那么我们可以把这类商品作为负样本。


3. 排序模型的特征有哪些维度?

我们通常把特征分为四个维度:用户,商品,用户行为(用户和商品的交互信息),上下文特征(context)。下面分别对这四个维度的特征做说明。

用户特征是值用户自带的属性:比如用户在注册app的时候输入的性别、年龄、位置等信息。用户特征还包括我们对用户属性的挖掘,比如用户过去一个月内下单的总次数、总金额等。除此之外,我们可以通过一些其他的信息对用户属性做一些扩展,比如用户在下单的时候,我们可以获取到下单的地理位置,那么我们可以对这个地理位置建模。简单粗暴的方法可以是对于经纬度取某个精度然后做个编码,这样我们就把地理位置转化成为了一个id类特征;进一步,我们可以通过对地理位置做分析,得到某个街道或者小区的居民消费水平系数。

商品特征是指商品的属性和标签。它通常包括商品的id,商品的类目以及品牌的标签等等。取决于业务场景,商品的id类标签可以包括商品的产地、规格、材质等标签。连续型特征包括商品的价格、销量、曝光、点击率、转化率等统计值。

用户行为特征通常是用户和商品的交互的统计值。我们可以计算用户在不同窗口内对于某个商品交互的次数,交互可以包括曝光,点击,购买,或者点击不喜欢按钮的次数等等。注意,这是一类很重要的特征,因为它包括了用户主动的行为。我们有理由相信用户对于购买过的商品或购买过商品的相似品再次购买的概率会很大。因此在特征工程中,我们可以通过扩展用户商品行为交互的窗口(3/7/15/30/90天等)对用户和商品交互行为更精准的刻画。

上下文特征通常是实时的特征。比如当前的时间,用户设备的信息,用户地理位置等。

4. 强相关的特征会带来什么样的问题?如何处理?

假如特征a和特征b是强相关的,那么在已有a的情况下引入b特征,对于模型的效果提升是微乎其微的。同时,增加特征会带来额外的存储以及线上推理耗时的开销(如何实现工程与模型之间的平衡?),因此我们需要思考如何识别特征之间的相关性,以留下信息量最大的特征。

我们可以通过奇异值分解(SVD)的方法,保留奇异值最大的k个特征(特征的方差越大,它所包含的信息就越多)。

5. 热品会带来什么模型训练的问题?如何解决热品问题?

热品指的是平台中曝光或者销量特别高的商品。在电商场景中,热品的销量可以是普通商品的十几倍甚至更多!这就意味着训练数据中有很大一部分商品是热品。与此而来的问题是,模型对于非热品的学习是欠拟合的。

我们可以对热品进行降采样。通过分箱的方法,得到不同程度的热品区间(假设通过商品的销量来分箱),然后对于各个区间的热品进行不同概率的降采样。

6. 用户维度的特征在用户个人的商品排序中起到了什么作用?

模型通常包含用户画像类特征,但是对于某一个用户来说,他自己的画像类特征是一样的,那么这类特征对于当前用户的商品打分排序起到了什么作用呢?

对于LR模型来说,LR模型认为对数几率(log odds) 是所有特征的线性组合,其中每个特征是独立的。因此对于当前用户来说,用户画像类特征对于所有商品的影响都是一样的。也就是说,用户画像不会影响商品的相对排序。

但是对于非线性模型来说,比如树类模型,用户画像类特征可以存在于任何内部节点,从而只影响到一部分商品。因此,用户粒度的特征是有区分度的。同理对于深度模型也适用。

7. 如何做特征筛选?

lightGBM feature importance

离线可以直接通过树类模型得到特征重要性的排序。比如LightGBM模型的特征重要性是通过总的信息增益或者覆盖的样本数量算出的。

8. 如何解决推荐系统的信息茧房问题?

首先,什么是信息茧房?简单来说,用户每次看到的都是推荐算法推给用户的物品,那么假如模型的训练数据又是从这部分数据选取的话,模型是没有办法感知到用户对于没有浏览过的商品的反馈的。

那么怎么解决呢?我们可以通过增加一路召回的方式,从总的商品池中随机抽一部分用户没有见过的商品,以此让模型来学习到用户对于这类商品的反馈。

9. 用过哪些模型?分别有什么优缺点?

推荐模型演化

推荐模型包括逻辑回归LR,树类模型(XGBoost, LightGBM), 深度模型(wide&deep, DeepFM, DIN, DIEN等)。

LR通常作为baseline模型,可以理解为对数几率(log odds)的线性回归。它的优点在于模型简单且具有可解释性,对于高维稀疏特征效果好等。在线上预测方面,它可以支持实时的增量训练。它的缺点在于拟合能力不如非线性模型。

基于GBDT的树类模型里每棵树的生成,可以理解为人类的习惯的if-else的决策过程。我们每次选取最有区分度的特征以及最优的分裂点,然后递归的把样本分到叶子节点中。它同样具有较好的可解释性。由于boosting串行的训练过程(每次拟合上一颗树的残差),模型的准确率是比较高的。它的缺点在于,由于串行训练,模型训练时间会较长(注意,预测时并行的),不支持增量训练。

XGBoost和LightGBM都是对于GBDT的工程实现。

  • XGB使用了二阶导,显式加入了正则项,同时采用了预排序的方法加快分类点的并行查找速度。
  • LGB采用了直方图(histogram)算法,大大的减少了找分裂点的时间复杂度。但是,对于稀疏的特征,直方图算法不如预排序算法,因此LGB又引入了两个优化:分别是EFB(互斥特征捆绑:以此来减少特征的个数)和GOSS(单边负梯度采样:对梯度小的样本随机抽样,用剩下的样本去估计信息增益,以此来选择特征)。具体细节请参考原论文 LightGBM: A Highly Efficient Gradient Boosting Decision Tree

FM模型对特征之间两两做交叉,得到更高阶的特征组合。对于稀疏的标签类特征效果会比较好。

深度模型具有更强的拟合能力,但是很容易过拟合。我们可以对历史序列进行建模。比如DIN模型用当前商品和用户历史点击过的商品做attention,来刻画历史商品对当前排序品的影响。如果数据量足够大,那么深度模型会有较大的用武之地。

10. 为何用AUC作为离线指标?怎么理解AUC?

首先,什么是ROC?ROC是以TPR为纵轴,FPR为横轴,通过不断地移动截断点来画出的ROC曲线。

AUC是ROC曲线的积分,它衡量的是模型把正样本排在负样本前面的概率(事实上,我们可以通过这个方法近似地求解AUC的值)。对于推荐模型来说,转化/点击率的估值绝对值意义不大,物品排序的相对顺序才是我们要关心的。因此,AUC把用户真正感兴趣的物品排在前面的能力可以作为离线衡量的指标。

11. 如何处理用户和物品的冷启动问题?

冷启动可以分为用户冷启动和物品冷启动两个部分。

第一,对于用户冷启动,通常是一个新的用户首次登录APP,那么如何捕捉到这个用户的兴趣呢?我们可以在用户登录的时候要求用户选择符合自己的标签的形式,采集到新用户的信息。或者,可以接入第三方数据的方法丰富用户画像特征。

第二,对于物品的冷启动,假如平台上架了一件新商品,那么该商品的销量、转化率等特征是缺失的。我们可以通过扩展商品类目体系的方法,缓解新品特征缺失的问题。简单来说,即使我们不知道当前这个商品的销量、转化率等信息,我们对于该商品所处类目的特征是知道的,模型可以用这些已知特征做推理。另外一个方法是,我们可以通过增加一路新品召回的方法,迅速给新品“预热”,增加新品的曝光,从而迅速的补全缺失的销量等信息。

12. 如何解决推荐系统的偏置(bias)问题?离线和线上的区别?

商品在APP中的位置对于商品的点击、转化来说至关重要。一个物品排在前面的物品,即使用户购买意愿不是很高,通常也会有较高的转化率,这就是推荐系统中的positional bias。其他的bias还包括了推荐tab的位置,app前端展示的排版等。

解决bias的方法通常是把bias信息(商品的曝光位,页面tab位等等)作为类别特征加入模型中。但是这也产生了一个问题,那就是离线训练和线上预测的不一致。

离线我们可以拿到商品排序的位置。但是线上预测的时候,我们是没有办法拿到这个位置的。为什么呢?因为在cvr预估打分的阶段,我们没有办法知道cvr的相对排序,同样也没办法知道经过打散、重排等策略后商品排序的变化(如果知道的话那么就没必要预测了,嘻嘻)。那么面对预测阶段的缺失位置特征怎么办呢?答案很简单,就是给个默认值。这样,所有数据的这个特征都一样。我们也可以认为,我们离线对偏置建模,偏置的特征把自己部分的影响给独立出来;线上预测的时候,大家都一视同仁(给同样的默认值0),也就相当于是拿掉了偏置对模型的影响。

13. 如何做A/B实验?

ab test

AB实验是验证模型的最有效方法。这里需要注意两个问题:

第一,实验和实验之间是正交的。线上由于分流的逻辑,有时可能出现实验嵌套的问题,举例来说,就是某个实验只出现在另一个实验的流量中。导致的问题是,我们没有办法衡量当前实验在整体流量中的有效性

第二,实验和特征之间是正交的。假设某个实验只是对于男性用户投放,同时假设男性用户的cvr普遍高于女性用户。如果我们选取男性作为实验桶,女性作为对照桶的话,我们没有办法区分是实验导致cvr升高,还是用户本身属性导致的。因此好的ab实验设计应该使实验和所有特征是正交的。