晓|SIGIR2025：MSL给大语言模型装上推荐目标导航仪！

旺晓通：深入浅出解读，轻松通晓技术

在如今这个信息爆炸的时代，推荐系统就像我们生活中的智能小助手。无论是在刷购物网站挑选心仪的商品，还是打开音乐APP寻找动听的旋律，又或是在视频平台上发现有趣的视频，推荐系统都在背后默默地发挥着作用，猜透我们的心思，给我们推送那些可能感兴趣的内容。

我们详细翻译解读最新技术，文末有相关信息。

作者：张长旺，图源：旺知识

而大语言模型（LLMs），凭借着强大的理解能力和丰富的知识储备，逐渐成为了推荐系统领域的“新宠”。研究人员都希望借助大语言模型的力量，让推荐系统变得更加智能、精准。但理想很丰满，现实却有点骨感。在将大语言模型应用到推荐系统的过程中，研究人员遇到了不少难题。这时候，一篇SIGIR2025 (CCF-A) 信息检索国际会议录用的论文《MSL：Not All Tokens Are What You Need for Tuning LLM as a Recommender》横空出世，提出了一种全新的方法，为解决这些难题带来了新的希望。接下来，就让我们一起走进这篇论文，看看它到底有什么神奇之处。

一、大语言模型进军推荐系统，状况百出

大语言模型这几年可太火了！它就像一个无所不知的“超级大脑”，能理解各种复杂的内容，还掌握着海量的知识。把它应用到推荐系统里，听起来简直是强强联合。想象一下，推荐系统有了大语言模型的加持，就像给购物助手配备了一个知识渊博的顾问，肯定能给我们推荐更合心意的东西。

于是，研究人员就开始行动啦。他们把大语言模型直接当作推荐器，把用户之前的互动记录整理成语言提示，就好比是给大语言模型“打小抄”，让它根据这些提示来猜测用户接下来可能喜欢的东西。这个方法听起来挺靠谱，在少样本学习、模型泛化和可解释性方面都取得了不错的成果，推荐性能也有了一定的提升。

但是，大语言模型原本可不是为推荐系统而生的，就像让一个短跑运动员去参加马拉松，多少有点“水土不服”。所以，为了让大语言模型更好地适应推荐系统的工作，研究人员会对它进行监督微调。这就好比是给运动员进行专项训练，让它能在特定的领域发挥出更好的水平。

在微调的时候，大家常用一种叫做语言建模损失（LML）的方法。这个LML原本是设计用来做语言生成任务的，就像是让大语言模型学习怎么写文章，生成通顺、合理的句子。在推荐系统里，它的任务就是增加代表正样本物品（也就是用户可能喜欢的物品）的概率，同时降低其他生成内容的概率。

听起来挺合理的，可实际操作起来却问题不断。

第一个问题是，LML的目标和推荐系统的目标严重不一致。推荐系统的目标是给用户推荐他们真正喜欢的东西，把正样本物品排在所有物品的前面，就像在超市里把顾客可能喜欢的商品放在显眼的位置。而研究人员通过理论和实验验证发现LML会浪费大量精力教会模型区分合法和非法物品，即倾向于使大模型输出的推荐物品是系统当中所存在的物品，不仅如此，对于该目标的优化会很大程度上阻碍对于推荐目标的优化，导致模型的推荐性能有限。

另一个问题是，LML会把所有虚构的物品描述都当成负样本，这就有点“一刀切”了。有些虚构的物品可能和正样本物品很相似，用户说不定会喜欢呢。比如说，有个漫威电影迷，他看过《钢铁侠1》，那像《钢铁侠：AI叛乱》这种虚构的电影，虽然还没上映，但从名字就能看出来和钢铁侠系列有关，他很可能会感兴趣。可LML却不管这些，直接把它当成用户不喜欢的东西，这就给大语言模型传递了错误的信号，让它很难准确地把握用户的喜好。

还有一种叫S-DPO的方法，它也想利用直接偏好优化来提升基于大语言模型的推荐效果。但它也有不少毛病，性能不太好，结果不稳定，计算成本还很高。就像是一辆车，开得不快，还老是出故障，油耗还特别高，肯定让人很头疼。

二、MSL闪亮登场，解决难题有妙招

面对LML的这些问题，研究人员提出了一个全新的解决方案——掩码Softmax损失（MSL）。这就像是给大语言模型在推荐系统里量身定制的一套“战斗服”，专门用来解决之前遇到的难题。

MSL的核心思路很简单，就是把那些可能导致虚构物品描述的无效标记给“屏蔽”掉。在计算损失的时候，不让这些无效标记参与进来，这样就能避免错误的负样本信号干扰大语言模型的判断。这就好比在超市里整理商品的时候，把那些不存在的商品模型都收起来，只留下真实的商品，这样顾客就能更清楚地看到自己想要的东西了。

MSL还有很多厉害的地方。

它和推荐系统的目标非常契合。通过理论分析发现，优化MSL等价于是在优化一个更贴近推荐系统NDCG指标的上界（这个指标可以衡量推荐系统的排名准确性，数值越高，推荐效果越好）。相比LML更能有效地优化推荐性能。这就好比给推荐系统找到了一条更准确的导航路线，让它能更快、更准地把用户喜欢的物品推荐出来。

而且，MSL实现起来也很容易。它的主要操作就是识别出有效的标记，这一步可以通过一种叫trie树（也叫前缀树）的结构来轻松完成。利用现有的工具包，只需要几行代码就能构建好trie树，然后就能计算出掩码矩阵，把LML改成MSL。这就好比给推荐系统升级了一个插件，只需要简单操作一下，就能让它的性能得到提升。

从效率方面来看，MSL也表现得相当出色。虽然构建trie树和掩码矩阵需要一些计算资源，但这个过程非常高效，在处理所有数据集的时候，都能在一秒内完成。而且，MSL在计算损失的时候，只考虑有效的标记，排除了大量无效标记，大大减少了计算量。这就好比在整理文件的时候，只保留有用的信息，扔掉那些没用的垃圾文件，让电脑运行得更快。

三、应对梯度消失，ATS来帮忙

MSL虽然理论上很完美，但在实际应用中还是遇到了一个小麻烦——梯度消失问题。这就好比一个人在跑步的时候，力气越来越小，最后跑不动了。

为什么会出现梯度消失呢？简单来说，MSL在计算概率的时候，分母里的有效标记数量变少了，这就导致某些概率值变得很大，而梯度的大小又和这些概率值有关。当概率值太大的时候，梯度就会变得很小，甚至接近于零，这样大语言模型在训练的时候就很难更新参数，影响了模型的学习效果。

为了解决这个问题，研究人员想到了一个办法——引入温度系数。这就好比给跑步的人喝点能量饮料，让他重新恢复力气。通过调整温度系数，可以改变概率的分布，让梯度的大小变得更合适，从而提高模型的性能。

但是，新的问题又来了。不同的数据集，最优的温度系数是不一样的。就好比不同的人适合不同的能量饮料配方，适合这个数据集的温度系数，换到另一个数据集上可能就不管用了。如果每次都要手动去调整这个超参数，那可太麻烦了，就像每次都要给不同的人调配不同的能量饮料，费时又费力。

这时候，自适应温度策略（ATS）就登场了。它就像是一个智能的能量饮料调配师，能够根据数据集的特点和模型的当前状态，自动调整温度系数，让概率值保持在一个合适的范围内，避免梯度消失。ATS是怎么做到的呢？它是根据有效标记的平均数量和模型预测的logits值（可以理解为模型对每个标记的“信心”程度）来计算出一个合适的温度系数。这样一来，就不用再手动去调整超参数了，大大提高了模型训练的效率和稳定性。

四、实验见真章，MSL实力超群

为了验证MSL的效果，研究人员进行了一系列实验。

在实验中，研究人员选用了四个真实世界的数据集，这些数据集在基于大语言模型的推荐研究中经常被用到，就像是厨师们常用的经典食材。他们把MSL和很多其他推荐方法进行了对比，这些方法包括传统的推荐器、大语言模型增强的推荐器、基于大语言模型的推荐器，还有同样改进了损失函数的S-DPO。

实验结果令人惊喜，MSL在各个数据集上都表现得非常出色，远远超过了其他的基线方法。在NDCG@10这个指标上，MSL平均提升了42.24%，就像是一个学生原本考试只能考60分，现在一下子提高到了85分以上，进步非常明显。

相比之下，其他方法就没有这么亮眼的表现了。像LLM-CF这种大语言模型增强的推荐器，在四个数据集中有三个都表现不佳，甚至出现了负增长。这就好比一个人本来想通过锻炼变得更强壮，结果却适得其反，变得更虚弱了。

S-DPO虽然也想改进推荐效果，但它的表现很不稳定，在一些数据集上不仅没有提升，反而出现了下降的情况。就像一辆车，有时候开得还不错，有时候却突然抛锚了。

研究人员还对MSL进行了消融实验，就像把一辆车拆开来，看看每个零件都有什么作用。他们发现，温度系数对MSL的性能影响很大，如果没有温度系数的调整，MSL在某些数据集上甚至会比LML表现得更差。而ATS模块就像是一个智能的汽车导航系统，它的效果比手动调整超参数还要好，能够让MSL更稳定地发挥性能。

在效率方面，MSL也展现出了巨大的优势。和S-DPO相比，MSL在计算效率上有了大幅提升，在Toy和Book数据集上分别提高了315%和324%。这就好比一辆车原本开得很慢，现在换上了更强大的发动机，速度一下子快了好几倍。和LML相比，MSL也有一定的效率提升。这说明MSL不仅推荐效果好，而且运行起来还更“节省资源”，就像一辆既跑得快又省油的汽车。

五、MSL未来之路可期

MSL的出现，为基于大语言模型的推荐系统带来了新的突破。它通过改进损失函数，有效地解决了大语言模型在推荐系统应用中遇到的问题，让推荐系统的性能得到了显著提升。就像给推荐系统注入了一针“强心剂”，让它变得更加强大、智能。

这篇论文的研究成果不仅在理论上有重要意义，在实际应用中也有很大的价值。它为推荐系统的发展提供了新的思路和方法，让我们离更加精准、个性化的推荐服务又近了一步。

不过，研究人员并没有满足于此。他们认为，未来还有很多可以探索的方向。比如说，可以设计专门针对推荐系统的大语言模型架构，就像为推荐系统打造一辆独一无二的超级跑车，让它能更好地适应推荐任务的需求。这样一来，推荐系统的性能说不定还能有更大的提升空间。

相信在未来，随着技术的不断进步和研究的深入，推荐系统会变得越来越智能，给我们的生活带来更多的便利和惊喜。就像我们期待一辆辆更先进的汽车出现一样，我们也期待着更强大的推荐系统能够早日走进我们的生活，让我们在信息的海洋里畅游得更加轻松、愉快。

作者：张长旺，图源：旺知识

参考资料

• 标题：MSL: Not All Tokens Are What You Need for Tuning LLM as a Recommender• 作者：Bohao Wang、Feng Liu、Jiawei Chen、Xingyu Lou、Changwang Zhang、Jun Wang、Yuegang Sun、Yan Feng、Chun Chen、Can Wang• 单位：浙江大学、OPPO研究院、实在智能• 标签：推荐系统、大语言模型、损失函数、序列推荐• 概述: 文章提出一种适用于微调大语言模型（LLM）的掩码Softmax损失函数（MSL），用于解决传统语言建模损失（LML）在推荐系统应用中的局限性，同时提出自适应温度策略（ATS）解决MSL梯度消失问题，实验表明MSL能显著提升推荐性能。• 链接：ccccccc/3dwfn2bmqel.pdf