推荐系统遇上深度学习 (十四)--《DRN:A Deep Reinforcement Learning Framework for News Recommendation》

之前学习了强化学习的一些内容以及推荐系统的一些内容,二者能否联系起来呢!今天阅读了一篇论文,题目叫《DRN: A Deep Reinforcement Learning Framework for News Recommendation》。该论文便是深度强化学习和推荐系统的一个结合,也算是提供了一个利用强化学习来做推荐的完整的思路和方法吧。本文便是对文章中的内容的一个简单的介绍,希望对大家有所启发。

1、引言

新闻领域的个性化推荐十分重要,传统的方法如基于内容的方法、协同过滤、深度学习方法在建模 user-item 交互关系时,经常面临以下三个问题:

1)难以处理新闻推荐的动态变化。这种动态变化体现在两个方面,首先新闻具有很强的时效性,其次是用户对于新闻阅读的兴趣是不断变化的,如下图所示:
014dd4ac3f034f2981ee2349b00614fd.png

因此,在建模过程中,不仅要考虑用户对当前推荐的反馈,还要考虑长期的影响。就好比买股票,不能只考虑眼前的收益,而是要考虑未来的预期收益。

2)当前的推荐算法通常只考虑用户的点击/未点击 或者 用户的评分作为反馈,然而,用户隔多久会再次使用服务也能在一定程度上反映用户对推荐结果的满意度。

3)目前的推荐系统倾向于推荐用户重复或相似内容的东西,这也许会降低用户在同一个主题上的兴趣度。因此需要进行 exploration。传统方法 e -greedy strategy 或者 Upper Con dence Bound (UCB) 都会在短期对推荐系统的效果造成一定的影响,需要更有效的 exploration 策略。

因此,本文提出了基于强化学习的推荐系统框架来解决上述提到的三个问题:

1)首先,使用 DQN 网络来有效建模新闻推荐的动态变化属性,DQN 可以将短期回报和长期回报进行有效的模拟。

2)将用户活跃度(activeness score)作为一种新的反馈信息,用户活跃度在后面会详细介绍。

3)使用 Dueling Bandit Gradient Descent 方法来进行有效的探索。

算法的框架如下图所示:
245095cbd12f4cd9b4a7c40eb0b5779a.png
本文的贡献主要有:

1)提出了一种强化学习的框架用于在线新闻的个性化推荐

2)使用用户活跃度作为一种新的反馈,来提高推荐的准确性

3)使用了一种更加高效的探索算法:Dueling Bandit Gra- dient Descent

4)模型可以进行在线学习和更新,在离线和在线实验上的表现都超过了传统的算法。

2、问题定义

下面是本文中的一些符号约定:
e945db3bed8743bf949fb0088e114570.png

3、模型详解

3.1 模型整体框架

模型整体框架如下图所示:
eefbf6ef60e14c6cb2fd235a06f15718.png

有几个关键的环节:

PUSH:在每一个时刻,用户发送请求时,agent 根据当前的 state 产生 k 篇新闻推荐给用户,这个推荐结果是 exploitation 和 exploration 的结合

FEEDBACK:通过用户对推荐新闻的点击行为得到反馈结果。

MINOR UPDATE:在每个时间点过后,根据用户的信息(state)和推荐的新闻(action)及得到的反馈(reward),agent 会评估 exploitation network Q 和 exploration network Q ̃ 的表现,如果 exploitation network Q 效果更好,则模型保持不动,如果 exploration network Q ̃ 的表现更好,exploitation network Q 的参数将会向 exploration network Q ̃变化。

MAJOR UPDATE:在一段时间过后,根据 DQN 的经验池中存放的历史经验,对 exploitation network Q 模型参数进行更新。

3.2 特征设计

DQN 每次的输入有下面四部分的特征:

新闻的特征:包括题目,作者,排名,类别等等,共 417 维

用户的特征:包括用户在 1 小时,6 小时,24 小时,1 周,1 年内点击过的新闻的特征表示,共 413*5=2065 维。

新闻和用户的交互特征:25 维。

上下文特征:32 维的上下文信息,如时间,周几,新闻的新鲜程度等。

在这四组特征中,用户特征和上下文特征用于表示当前的 state,新闻特征和交互特征用语表示当前的一个 action。

3.3 深度强化学习作推荐

这里深度强化学习用的是 Dueling-Double-DQN。之前我们介绍过 DQN 的三大改进,包括 Double-DQN,Dueling-DQN 和优先经验回放,这里用到了两个。将用户特征和上下文特征用于表示当前的 state,新闻特征和交互特征用语表示当前的一个 action,经过模型可以输出当前状态 state 采取这个 action 的预测 Q 值。

Q 现实值包含两个部分:立即获得的奖励和未来获得奖励的折现:

18b9403816a24424909d33d05a841193.png

立即的奖励可能包含两部分,即用户的点击奖励和用户活跃度奖励。由于采取了 Double-DQN 的结构,Q 现实值的计算变为:
5b6c6f1cc156450f832ba9ebf47820f9.png
再加上 Dueling 的考虑,模型的网络结构如下:
ff18ce81341046ada99f9573f5edc3c2.png
文章中关于 DQN 的理论部分没有详细介绍,可以参考我之前写过的强化学习系列的文章进行理解。

3.4 用户活跃度

用户活跃度(User Activeness) 是本文提出的新的可以用作推荐结果反馈的指标。用户活跃度可以理解为使用 app 的频率,好的推荐结果可以增加用户使用该 app 的频率,因此可以作为一个反馈指标。



用户活跃度的图示如下:
f4f8858733b64c5caf72cfdb581671f6.png

如果用户在一定时间内没有点击行为,活跃度会下降,但一旦有了点击行为,活跃度会上升。

在考虑了点击和活跃度之后,之前提到过的立即奖励变为:
5dc6d124ba574a33ab61fa89e236fc06.png

3.5 探索

本文的探索采取的是 Dueling Bandit Gradient Descent 算法,算法的结构如下:
ac659f955b64483cb50687bbd464968f.png

在 DQN 网络的基础上又多出来一个 exploration network Q ̃ ,这个网络的参数是由当前的 Q 网络参数基础上加入一定的噪声产生的,具体来说:

当一个用户请求到来时,由两个网络同时产生 top-K 的新闻列表,然后将二者产生的新闻进行一定程度的混合,然后得到用户的反馈。如果 exploration network Q ̃的效果好的话,那么当前 Q 网络的参数向着 exploration network Q ̃的参数方向进行更新,具体公式如下:
df5aae16158c437d85b5d9bffe8e035e.png

否则的话,当前 Q 网络的参数不变。

总的来说,使用深度强化学习来进行推荐,同时考虑了用户活跃度和对多样性推荐的探索,可以说是一个很完备的推荐框架了!

4、实验比较

4.1 数据集

使用的数据集是新闻 app 得到的数据:

数据中存在明显的长尾特点:

7604468d6bc94da1942a603207e2af72.png

4.2 评估指标:

主要用的评估指标有 CTR、top-K 准确率,nDCG,三者的计算公式如下:

e3ca9e12647240b2925d3f9dca0e74be.png

3ce188a06f8a4072a46ddd77f781771c.png

在 nDCG 中,r 是新闻的排序,n 是推荐新闻列表的长度。

4.3 实验设定

4.4 对比模型

本文选取了五个基准模型:LR,FM,Wide&Deep,LinUCB,HLinUCB。同时根据组件的不同(U 代表用户活跃度,EG 代表 e-greedy,DBGD 代表 Dueling Bandit Gradient De- scent )强化学习模型又分为以下几种:

DN:没有考虑未来收益的 Double-DQN

DDQN:考虑未来收益的 Double-DQN

DDON+U:考虑未来收益,同时考虑用户活跃度的 Double-DQN

DDQN+U+EG:采用 e-greedy 作为探索策略的 Double-DQN

DDQN+U+DBGD:采用 DBGD 作为探索模型的 Double-DQN

4.5 离线实验

离线实验的结果如下所示:

c1ff8290db844a6b8898d4bc86c8be04.png

本文提出的模型效果明显好于基准模型。

4.6 在线实验

在线实验的效果分两部分,准确率和 Diversity。

准确率

准确率用 CTR 来表征,如果 CTR 高,我们认为模型准确率较好,实验结果如下:
5482052af84a42fda054c41d72b44d7e.png

多样性

多样性这里采用的指标是 ILS,用来表示推荐列表中 item 的相似性,如果这个相似性较低,可以认为推荐结果的多样性较好,计算公式如下:
bd2139592d8547cd8abee7bb85cab24e.png

实验结果如下:
d2260c9eeb464c9a8e3b449cd696fbf2.png

可以看到 DDQN+U+DBGD 的多样性明显好于其他模型。


本文地址:https://www.6aiq.com/article/1547826128684
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出