多任务学习与推荐系统

简介

大多数机器学习模型都是独立来进行学习的，即单任务学习（single-task learning）。也就是说，我们针对一个特定的任务，设计一个模型，然后进行迭代优化。对于稍复杂一点的任务，我们也习惯于通过进行拆解的方式，来对任务的每个部分进行建模。这样存在一个很明显的问题，在对每个子任务进行建模的时候，很容易忽略任务之间的关联、冲突和约束等关系，导致多个任务的整体效果无法更优。

多任务学习（multi-task learning），就是与单任务学习相对的一个概念。在多任务学习中，往往会将多个相关的任务放在一起来学习。例如在推荐系统中，排序模型同时预估候选的点击率和浏览时间。相对于单任务学习，多任务学习有以下优势：

多个任务共享一个模型，占用内存量减少；（训练开销）
多个任务一次前向计算得出结果，推理速度增加；（serving算力开销）
关联任务通过共享信息，相互补充，可以提升彼此的表现。（知识迁移）

虽然多任务学习有着诸多好处，但是多任务学习也包含着许多挑战。多任务学习经常会出现跷跷板现象，即两个任务联合学习的时候，可能一个任务效果变好，另一个任务效果变差。究其本质，核心是训练过程中存在以下3个方面问题：

多任务梯度方向不一致：同一组参数，不同的任务更新方向不一致，导致模型参数出现震荡，任务之间出现负迁移的现象，一般出现在多个任务之间差异较大的场景；
多任务收敛速度不一致：不同的任务收敛速度不一样，有的任务比较简单收敛速度快，有的任务比较困难收敛速度慢，导致模型训练一定轮数后，有的任务已经overfitting，有的任务还是underfitting的状态；
多任务loss取值量级差异大：不同的任务loss取值范围差异大，模型被loss比较大的任务主导，这种情况在两个任务使用不同损失函数，或者拟合值的取值差异大等情况下最为常见。

针对上述问题，业界通常有以下解决方法：

设计网络结构
平衡损失
对梯度进行操作

Multi-gate Mixture-of-Experts

MMoE系列主要改进了共享部分，将共享编码器抽象成多个专家模块。每个专家模块的模型结构可以自定义，类似于多头注意力的思想，旨在使每个专家能够学到不同领域的知识。在多个专家之后，引入了一个门控网络，该网络负责控制每个专家对于每个任务的贡献程度。Multi-gate Mixture-of-Experts（MMoE）在MoE的基础上，进一步拆解，每个任务都拥有了自己的门控机制。

Progressive Layered Extraction

在MMoE基础上进行了进一步改进的Progressive Layered Extraction (PLE) 引入了专家组的概念，将专家组进一步区分为任务独占专家组和共享专家组，这一结构被称为CGC(Customized Gate Control) 定制门控。 PLE网络结构是CGC结构的叠加，在分层的机制下，Gate被设计成两种类型，以实现不同类型Expert信息的融合和交互。这两种Gate分别为task-share gate和task-specific gate。

Entire Space Multi-task Model

Entire Space Multi-Task Model (ESMM) 在建模上与之前提到的并行建模不同，其模型结构明确地反映了任务之间的依赖关系。其核心思想是以CVR（Conversion Rate）为主任务，并引入CTR（Click-Through Rate）和CTCVR（Click-To-Conversion Rate）作为辅助任务，以解决CVR预估的挑战。

Just For Fun

多任务学习与推荐系统

简介

推荐系统中的多任务学习

Multi-gate Mixture-of-Experts

Progressive Layered Extraction

Entire Space Multi-task Model

关于推荐系统中冷启动问题的一些看法

DASFAA2024论文中稿

生蚝Babe

Comments | NOTHING

Cancel Reply

Just For Fun

简介

推荐系统中的多任务学习

Share Bottom

Multi-gate Mixture-of-Experts

Progressive Layered Extraction

Entire Space Multi-task Model

关于推荐系统中冷启动问题的一些看法

DASFAA2024论文中稿

生蚝Babe

Comments | NOTHING

Cancel Reply

Just For Fun