矩阵分解与推荐系统

摘要

矩阵分解是一种将矩阵简化为其组成部分的方法，是工程数学中一个重要章节以及重要应用，其在推荐系统中的应用尤为突出。本文首先概述了矩阵分解的简介以及其分类，之后对于矩阵分解在推荐系统中的应用做了一些介绍，并就使用梯度下降矩阵分解进行了过程分析以及过程的数学公式化表述，并使用tensorflow进行编程实现与实验。

关键词：矩阵分解、奇异值分解、梯度下降、推荐系统、共现矩阵

简介

矩阵分解

矩阵分解（decomposition, factorization）是将一个矩阵拆解为数个矩阵的乘积的运算。这种方法可以简化更复杂的矩阵运算，使得这些运算可以在分解的矩阵上执行，而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

常见的矩阵分解方法如下：

奇异值分解
特征分解
LU分解

在计算机应用（数值分析，特征降维、推荐系统）中常用的矩阵分解的方法有：

奇异值分解
特征分解
梯度下降

模型

矩阵分解与推荐系统

在推荐系统中，我们将矩阵分解应用于用户-item的共现矩阵中。假设有一共现矩阵 $\mathbf R_{m \times n}$ ，其中 $m$ 为用户数量， $n$ 为item数量，我们使用矩阵分解，将 $\mathbf R_{m \times n}$ 分解为用户矩阵 $\mathbf U_{k \times m}$ 与物品矩阵 $\mathbf V_{k \times n}$ ：

其中 $k$ 代表着分解后用户矩阵中用户向量以及物品矩阵中的物品向量的维度，也就是分解后的用户特征空间以及物品特征空间的维度。将用户向量 $u_i$ 与物品向量 $v_i$ 称为隐向量， $k$ 的大小决定了隐向量的表达能力， $k$ 越大则维度越大，向量所携带的信息的相对越多，但相对的，其泛化能力就越差。 $k$ 的取值还影响到计算复杂度，因此在实际问题解决过程中需要找到一个平衡点来决定 $k$ 的大小。

将 $\mathbf R_{m \times n}$ 分解完成之后，每个用户与item都拥有了相同维度的向量表示，那么用户与item的相关度或者说是偏好预测就可以转化为 $u_i$ 与 $v_i$ 这一对隐向量之间的距离计算，规定用户 $a$ 对物品 $b$ 的预测偏好程度为 $\hat r_{a,b}$ ，则

也就是说我们将用户矩阵 $\mathbf U_{k \times m}$ 与物品矩阵 $\mathbf V_{k \times n}$ 中的隐向量当作同一个特征空间中的向量，他们具有对应的数学运算性质，且可以计算彼此之间的距离。

矩阵分解的求解过程

对矩阵进行矩阵分解的主要方法有三种：特征值分解( Eigen Decomposition )、奇异值分解（ Singular Value Decomposition，SVD ）和梯度下降 (Gradient Deseent)。其中，特征值分解只能作用于方阵，显然不适用于分解用户-item矩阵。

对于奇异值分解来说，存在两点缺陷，使其不宜作为互联网场景下矩阵分解的主要方法：

(1）奇异值分解要求原始的矩阵是稠密的。互联网场景下大部分用户的行为历史非常少，且由于长尾效应，有百分二十的行为将作用于很大一部分的冷门item，且这些行为分布及其稀疏，这导致了用户-item的共现矩阵非常稀疏且庞大。如果应用奇异值分解，就必须对缺失的元素值进行填充，而对于元素进行填充将会导致数据分布的改变。

(2）传统奇异值分解的计算复杂度达到了 $O(mn^2)$ 的级别，这对于商品数量动辄上百万、用户数量往往上干万的互联网场景来说几乎是不可接受的。

梯度下降矩阵分解

梯度下降分解过程

梯度下降法（Gradient descent）是一个一阶最优化算法，通常也称为最陡下降法。要使用梯度下降首先需要有一个准备对其优化的函数，即损失函数，损失函数要能量化模型性能的优劣，即预测值与groud truth的差距。最优化算法的目标是将损失函数最小化，一个目标函数通常为一个损失函数的本身或者为其负值。当一个目标函数为损失函数的负值时，目标函数的值寻求最大化。

使用梯度下降进行矩阵分解的损失函数（均方误差损失MSE，加入 $\frac{1}{2}$ 的系数方便求导）为：

防止过拟合，将其加入L2正则化后：

拟合目标为：

进行梯度下降时，单个向量的梯度为：

单次参数迭代，其中 $lr$ 为学习率：

通过多次的参数迭代我们最终可以得到精度足够的用户矩阵 $U_{k \times m}$ 和物品 $V_{k \times n}$ ，进而用于用户与物品之间计算距离作为相关度，以相关度排序列表来作为推荐。

实验

梯度下降分解tensorflow2实现

使用movie lens数据集，由于对评分进行了归一化，模型输出需要加上sigmoid激活函数

import pandas as pd
import tensorflow as tf
from matplotlib import pyplot as plt 


def build_groud_truth_matrix(rating_path='/Volumes/Data/oysterqaq/Downloads/ml-1m/ratings.dat',
                             user_path='/Volumes/Data/oysterqaq/Downloads/ml-1m/users.dat',
                             item_path='/Volumes/Data/oysterqaq/Downloads/ml-1m/movies.dat'):
    ratings_list = [i.strip().split("::") for i in open(rating_path, 'r', encoding='ISO-8859-1').readlines()]
    users_list = [i.strip().split("::") for i in open(user_path, 'r', encoding='ISO-8859-1').readlines()]
    movies_list = [i.strip().split("::") for i in open(item_path, 'r', encoding='ISO-8859-1').readlines()]

    ratings_df = pd.DataFrame(ratings_list, columns=['UserID', 'MovieID', 'Rating', 'Timestamp'], dtype=int)
    movies_df = pd.DataFrame(movies_list, columns=['MovieID', 'Title', 'Genres'])
    movies_df['MovieID'] = movies_df['MovieID'].apply(pd.to_numeric)
    R_df = ratings_df.pivot(index='UserID', columns='MovieID', values='Rating').fillna(0)
    # 归一化
    return tf.constant(R_df.values.astype(float)) / 5


class MatrixFactorization(tf.keras.layers.Layer):
    def __init__(self, k, **kwargs):
        super(MatrixFactorization, self).__init__(**kwargs)
        # 隐向量维度大小
        self.k = k

    def build(self, input_shape):
        num_users, num_movies = input_shape
        # 用户矩阵U
        self.U = self.add_weight("U",
                                 shape=[num_users, self.k],
                                 dtype=tf.float32,
                                 initializer=tf.initializers.GlorotUniform,
                                 # L2正则
                                 regularizer=tf.keras.regularizers.L2(0.01)
                                 )
        # 物品矩阵V
        self.V = self.add_weight("V",
                                 shape=[num_movies, self.k],
                                 dtype=tf.float32,
                                 initializer=tf.initializers.GlorotUniform,
                                 regularizer=tf.keras.regularizers.L2(0.01)
                                 )
        # 用户矩阵bias
        self.bu = self.add_weight("bu",
                                  shape=[num_users],
                                  dtype=tf.float32,
                                  initializer=tf.initializers.Zeros)
        # 物品矩阵bias
        self.bv = self.add_weight("bv",
                                  shape=[num_movies],
                                  dtype=tf.float32,
                                  initializer=tf.initializers.Zeros)
        # 整体bias
        self.bg = self.add_weight("bg",
                                  shape=[],
                                  dtype=tf.float32,
                                  initializer=tf.initializers.Zeros)

    def call(self, input, **kwargs):
        return (tf.add(
            tf.add(
                tf.matmul(self.U, tf.transpose(self.V)),
                tf.expand_dims(self.bu, axis=1)),
            tf.expand_dims(self.bv, axis=0)) +
                self.bg)


class MatrixFactorizer(tf.keras.Model):
    def __init__(self, embedding_size):
        super(MatrixFactorizer, self).__init__()
        self.matrixFactorization = MatrixFactorization(embedding_size)
        #
        self.sigmoid = tf.keras.layers.Activation("sigmoid")

    def call(self, input, **kwargs):
        output = self.matrixFactorization(input)
        output = self.sigmoid(output)
        return output


def loss_fn(source, target):
    mse = tf.keras.losses.MeanSquaredError()
    loss = mse(source, target)
    return loss

#分解后特征空间维度大小
k = 15
#构建用户-item共现矩阵
R = build_groud_truth_matrix()

model = MatrixFactorizer(k)
model.build(input_shape=R.shape)
model.summary()

optimizer = tf.optimizers.Adam(learning_rate=1e-2)

losses, steps = [], []
for i in range(1000):
    with tf.GradientTape() as tape:
        Rhat = model(R)
        loss = loss_fn(R, Rhat)
        if i % 100 == 0:
            loss_value = loss.numpy()
            losses.append(loss_value)
            steps.append(i)
            print("step: {:d}, loss: {:.6f}".format(i, loss_value))
    variables = model.trainable_variables
    gradients = tape.gradient(loss, variables)
    optimizer.apply_gradients(zip(gradients, variables))

# plot training loss
plt.plot(steps, losses, marker="o")
plt.xlabel("steps")
plt.ylabel("loss")
plt.show()

结论

关于矩阵分解的个人思考

矩阵分解的变换在现实问题中代表了将用户-item共现矩阵映射到另外一个特征空间中得到一个相对密集的向量表征，将抽象成共现矩阵的用户与项目（用户与项目分别用与对方的共现关系来做一个预表征）映射到同一个特征向量空间。既然在同一个空间中那么其中向量就满足一些数学性质，并且可以计算距离，进而使用向量空间中的距离来量化用户与物品在实际物理真实世界的相关度。

参考

https://flashgene.com/archives/52522.html2022

https://zhuanlan.zhihu.com/p/399547902

《深度学习推荐系统》

Just For Fun

矩阵分解与推荐系统

摘要

简介

矩阵分解

推荐系统与共现矩阵

用户-item共现矩阵

协同过滤

矩阵分解

模型

矩阵分解与推荐系统

矩阵分解的求解过程

梯度下降矩阵分解

梯度下降分解过程

实验

梯度下降分解tensorflow2实现

结论

关于矩阵分解的个人思考

参考

Info NCE

《Real-time Personalization using Embeddings for Search Ranking at Airbnb》翻译

生蚝Babe

Comments | NOTHING

Cancel Reply

Just For Fun