异构信息网络构建的引荐体系新算法研讨

|
在这个信息多到快要爆破的年代,引荐体系在其间承当了严峻的职责。不只能让用户更快地获取有用的信息,一起也给厂商带来了另一中的推行办法,为厂商发明巨大的商业价值,现在许多的互联网公司都会有自己的目引荐团队来从事引荐算法的研讨,旨在提高自己的事务作用。

传统的引荐体系中,最常见的办法就是「协同过滤」,典型的比方就是我们在电商网站见到的「购买该产品的用户也购买了/也在看」。协同过滤办法一般包含两种办法,即依据用户和依据产品的协同过滤,以及矩阵分化 (Matrix FactorizaTIon)。自从 2007 年 Netflix 百万大奖的引荐体系竞赛以来,矩阵分化的办法开端变得盛行。虽然矩阵分化能够取得不错的引荐作用,但也有显着的问题:

1)稀少性(Sparsity)。现实生活里的评分矩阵往往十分稀少,因为单个用户评分的产品是十分少的;

2)冷启动(Cold Start)。新发生的用户和产品往往都没有评分。

上述两种状况都会严峻影响矩阵分化的猜测准确性。

除了这两个根本的问题以外,矩阵分化还有一个更严峻的问题:它很难习惯现在的引荐体系。因为当下的引荐体系需求处理的特征并非只要评分信息,而是各式各样的信息(称作 Side InformaTIon),比方产品的描绘,图片,用户的老友联系等。我们能够看图 1 的比方,这是 Yelp 上一个饭馆的详情页。

异构信息网络构建的引荐体系新算法研讨

图 1:Yelp 上的一个详情页,Royal House

从图中,我们能够看到,除了评分信息之外,还有饭馆的地理位置,用户上传的图片,谈论等信息。明显,在给用户引荐饭馆的进程中,这些信息都十分重要,但它们又很难融入到现有的矩阵分化的模型中。因而,我们需求一个全新的结构来处理这样的问题。这是我们此次 KDD 作业的中心思维:「我们用 HIN 来对 side informaTIon 进行建模,一起规划了一套有用的算法结构,然后取得更好的引荐作用」。

算法结构

准备常识

异构信息网络 (Hetegeneous InformaTIon Network 以下简称 HIN),是由 UIUC 的 Han Jiawei 和 UCLA 的 Sun Yizhou 在 2011 年的 VLDB 论文中初次提出 [1]。

简略地了解,HIN 就是一个有向图,图中的节点和边都能够有不同的类型,如下图,是一个从上面 Yelp 详情页抽取出来的 HIN。节点能够代表不同类型的实体,比方 user, review, restaurant 等, 边代表不同类型的联系,比方 Check-in, Write, Mention 等。

异构信息网络构建的引荐体系新算法研讨

运用 HIN,我们就能够将各式各样的 side information 一致起来,接下来我们将介绍如安在 HIN 这个结构下完结我们的引荐进程。

从meta-path到meta-graph

在Sun Yizhou的VLDB2011的论文中,除了提出HIN,一起也提出了meta-path,用来核算两个节点之间的类似度。meta-path就是一个节点的sequence,节点与节点之间由不同类型的边衔接,也就是不同的联系。

比方从上图中的HIN,我们能够规划meta-path:

港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系

它表明的含义就是两个用户在同一个饭馆报到。

我们能够提取一条meta-path的实例:

港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系

那我们能够衡量港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系和 Bar Louie 之间的类似度,当有越多的meta-path实例来衔接港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系和 Bar Louie,它们之间的类似度就越大,我们也会能够给港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系引荐 Bar Louie。我们能够发现,这条 meta-path 正好对应我们了解的「依据用户的协同过滤」,即经常去 Royal House 的人也会去 Bar Louie。

从这个比方我们能够看出,关于引荐体系来说,HIN和meta-path有两个优点:

1) 十分完美地将各种side information融入到一个一致的模型;

2)运用meta-path,能够规划出各式各样的引荐战略,除了引荐准确性提高之外,还能供给「可解说性」。

当然,在核算节点类似度这个使命上,meta-path也有自己的问题:「无法处理杂乱的联系」。比方两个用户之间有如下衔接性。

异构信息网络构建的引荐体系新算法研讨

对应到图上的实例,港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系别离给 Royal House 写了一个谈论,不只给了五星好评,还在谈论里一起提到了这儿的「Seafood」,能够说这两个用户对饭馆的偏好十分类似。可是这样一种类似性,meta-path 无法对其进行建模。为了处理这个问题,有两篇论文 ( KDD 16 [2] 和 ICDE 16 [3]) 提出了一种更为通用通用的结构: meta-graph(也叫 meta-Structure)。比较 meta-path 要求有必要是 sequence 的结构,meta-graph 只要求「一个起点和一个结尾,中心结构并不约束」,这样大大提高了灵敏性。因而,在我们的 KDD 论文中,我们选用了 meta-graph 这样一种结构,来核算用户和产品之间的类似度。在实践中,我们能够规划 港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系 条 meta-graph,然后得到多种产品和用户之间的类似度,也就是 港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系 个类似度矩阵。

引荐进程: 矩阵分化(MF) + 分化因子机(Factorization Machine)

经过HIN和mega-graph,我们完美地将各式各样的side information一致到一个结构中。接下来的问题就是「怎么规划更好的引荐算法」。在这个论文里,我们用到了「MF + FM」的结构,简略来说: 别离对港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系个类似度矩阵进行矩阵分化,得到港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系组用户和产品的隐式特征,然后将一切的特征拼起来,运用分化因子机进行练习和评分猜测。

关于一个样本,即用户-产品对,我们别离能够得到港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系组特征,每组的维度为港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系(在矩阵分化的时分,我们设定秩为港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系)。那么我们就能够拼出下图中所以的一个维度为港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系的特征向量。

异构信息网络构建的引荐体系新算法研讨

Factorization Machine (FM) [4] 是 2010 年在 ICDM 上提出一种模型,因为能够对特征之间的高阶联系进行建模,以及对二阶参数进行低秩分化,因而在评分猜测这个引荐使命上取得了十分好的作用。在实践中,我们一般运用二阶联系:

港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系

其间,港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系是一阶参数,港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系是二阶参数。为了学出港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系,我们运用了 Least Squared loss:

港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系

特征挑选: Group Lasso

一般在 FM 的练习进程中,往往也会加上港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系的正则项来避免过拟合,用的最多的就是 港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系 。可是,在我们的作业中,因为我们会规划多条 meta-graph,并不是每条 meta-graph 都有用,为了主动挑选出有用的 meta-graph,我们抛弃了港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系,而挑选港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系,也称作 group lasso。在我们的算法结构中,我们是以 meta-graph 为单位来结构用户和产品的隐式特征的,因而,每条 meta-graph 对应一组用户和产品的隐式特征。一旦某条 meta-graph 没有用,那么它对应的一组特征都应该被去掉,这就是我们选用 group lasso 来做正则项的动机。

运用 group lasso 正则项之后,方针函数优化就变成了一个非凸非润滑(non-convex, non-smooth)的问题,我们运用了附近梯度算法(proximal gradient)算法来求解它。

以上就是我们的算法结构,接下来,我们将经过部分试验成果,来证明我们算法的优势。

试验成果

数据集和评价规范

我们运用了 Yelp 和 Amazon 这两个数据集,这两个都是十分经典的引荐体系数据集,一起也包含了丰厚的 side information。数据的详细统计数据,能够参看我们的论文,这儿只展现我们用到的 meta-graph,如下图。在 Yelp 上,我们规划了 9 条 meta-graph,在 amazon 上,我们规划了 6 种 meta-graph。

异构信息网络构建的引荐体系新算法研讨

在引荐体系中,我们一般用港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系来评价评分猜测的好坏,越小意味着引荐作用越好。

港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系

其间,港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系是实践评分,港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系是猜测评分,港科大KDD 2017选用论文作者详解:依据异构信息网络元结构交融的引荐体系是 test set 的个数。

引荐作用

在试验中,我们和一些常见的办法比较,包含依据矩阵分化和依据HIN的办法。详细成果如下图:

异构信息网络构建的引荐体系新算法研讨

上图中,RegSVD 和 FMR 是依据矩阵分化的办法,HeteRec [5] 和 SemRec [6] 别离是 WSDM14 和 CIKM15 上的两篇论文,在 HIN 上用 meta-path 来进行引荐,FMG 是我们的算法。别的,CIKM-Yelp 和 CIKM-Douban 两个数据集是 CIKM15 的作者 Shi Chuan 供给给我们的。依据上图,我们有以下发现:

在一切的数据集上,FMG 打败了一切的办法,引荐作用取得了不同程度的提高,证明了我们算法的有用性。

在 CIKM-Yelp 和 CIKM-Douban 这两个数据集,我们运用和 CIKM15 一样的 meta-path,仍然取得了 4.2% 和 3.2% 的提高,进一步证明在 HIN 这个结构下,我们引荐算法的有用性。

在两种依据 HIN 的办法中,我们发现 SemRec 比 HeteRec 的作用好不少。除掉引荐算法的差异,一个重要的不同就是,在 SemRec 中,作者规划了 U U B 这样方式的 meta-path,而在 HeteRec,作者运用了 U B B 这样方式的 meta-path。在我们的算法中,终究挑选出来有用的 meta-graph,大多就是 U U B 这样的方式。这个发现十分有意思,阐明经过「用户协同」的引荐成果作用会更好一些。这个发现也和现实生活中对应,我们获取感爱好的产品或许饭馆,除了爱好自身之外,更多的时分是经过朋友圈里老友引荐而发现。它反过来也能解说 SemRec 好于 HeteRec。

总结

近些年,因为移动互联网和大数据的开展,现在的引荐体系面对丰厚side information场景,传统的依据矩阵分化的办法现已很难再发挥作用,而依据人工规划的特征工程又极端费力。经过HIN和meta-graph,我们供给了一种简略有用的结构,既能够十分灵敏地运用side information来提高引荐作用,一起,还能运用人工规划的meta-graph来保存必要的语义信息,然后对引荐成果供给必定的「可解说性」。经过试验,我们也证明了这个结构的有用性。

请尊重我们的辛苦付出,未经允许,请不要转载ca88亚洲城【官】_电子爱好者网的文章!
window._bd_share_config={"common":{"bdSnsKey":{},"bdText":"","bdMini":"2","bdMiniList":false,"bdPic":"","bdStyle":"1","bdSize":"32"},"share":{}};with(document)0[(getElementsByTagName('head')[0]||body).appendChild(createElement('script')).src='http://bdimg.share.baidu.com/static/api/js/share.js?v=89860593.js?cdnversion='+~(-new Date()/36e5)];
上一篇:可印刷石墨烯油墨如安在太赫兹范围内发生超快激光-电子发烧友网
下一篇:stm32用ucos仍是linux