主题模型（二）：pLSA和LDA

一、pLSA（概率潜在语义分析）

          pLSA有过拟合问题，就是求D, Z, W。pLSA由LSA发展过来，而早期LSA的实现主要是通过SVD分解。
          在论文《Google News Personalization Scalable Online CF》一文中提级针对用户聚类，利用相似用户性信息计算喜欢的news。其中包含min-hash以及plsi，plsi是model-based 推荐算法，属于topic(aspect) model，其在NLP领域中用途很大。
          引入：在文本挖掘时，计算文档相似性是很基础的操作，通常，对文本进行分词，构建VSM，通过jaccard或者cosin计算距离或者相似性，这是基于corpus的思路，仅仅考虑词组，并未考虑文本的语义信息。针对下面情况，基于cropus很难处理：

如果时间回到2006年，马云和杨致远的手还会握在一起吗
阿里巴巴集团和雅虎就股权回购一事签署了最终协议

如果采用基于corpus的jaccard距离等算法，那么这两个文本的完全不相关，但是事实上，马云和阿里巴巴集团，杨致远和雅虎有着密切的联系，从语义上看，两者都和“阿里巴巴”有关系。
此外，另一个case：

富士苹果真好，赶快买
苹果四代真好，赶快买

          从corpus上来看，两者非常相似，但是事实上，2个句子从语义上来讲，没有任何关系，一个是”水果“另一个是”手机”。
          通过上面的例子，差不多也看出来topic model是什么以及解决什么问题。
          概念：topic model是针对文本隐含主题的建模方法，针对第一个case，马云对应的主题是阿里巴巴，阿里巴巴集团也隐含阿里巴巴主题，这样两个文本的主题匹配上，认为他们是相关的，针对第二个，分别针对水果以及手机主题，我们认为他们是不相关的。
          究竟什么是主题？[接下来参考baidu搜索研发部官方博客中对语义主题的定义]主题就是一个概念、一个方面。它表现为一系列相关的词，能够代表这个主题。比如如果是”阿里巴巴“主题，那么”马云“”电子商务“等词会很高的频率出现，而设计到“腾讯”主题，那么“马化腾”“游戏”“QQ”会以较高的频率出现。如果用数学来描述一下的话，主题就是词汇表上词语的条件概率分布，与主题密切相关的词，条件概率p(w|z)越大。主题就像一个桶，装了出现频率很高的词语，这些词语和主题有很强的相关性，或者说这些词语定义了这个主题。同时，一个词语，可能来自于这个桶，也可能来自那个桶，比如“电子商务”可以来自“阿里巴巴”主题，也可以来自“京东“主题，所以一段文字往往包含多个主题，也就是说，一段文字不只有一个主题。
          上面介绍了主题的概念，我们最为关心的是如何得到这些主题？这就是topic model要解决的问题。
          define： d表示文档，w表示词语，z表示隐含的主题。其中 p(w|d)表示w在文档d中出现的概率，针对训练语料，对文本进行分词，w的频度除以文档所有词语的频度和，可以求出，对于未知数据，model用来计算该value.p(w|z)表示在给定主题情况下词语的出现的概率是多少，刻画词语和主题的相关程度。p(z|d)表示文档中每个主题出现的概率。所以主题模型就是：利用大量已知的p(w|d)词语-文档信息，训练出来主题-文档p(z|d)以及词语-主题p(w|z)。

1.1 plsa模型

plsa是一种topic model，它属于生成模型(不是很理解)，给定文档d后，以一定的概率选择d对应的主题z，然后以一定概率选择z中的词语w.
plsa提供了一种模型求解的方法，采用之前介绍的EM算法，EM算法在之前已经介绍，现在不作处理，直接利用EM信息对topic model进行求解。

1.2 主题模型的用途

          1.计算文本的相似性，考虑到文本语义，更好的刻画文本相似性，避免多义词，同义词的影响。
          2.文本聚类，用户聚类(RS)。
          3.去除噪音，只保留最重要的主题，更好的刻画文档

1.3 plsa在推荐系统中的应用

          上面介绍的是文档和词语的关系，映射到推荐系统中，表示为用户和ITEM的关系，ITEM可以使网，视频等。这样可以看出来描述的完全是同样的问题，求解p(s|u)=∑zp(s|z)p(z|u)，模型参数为p(s|z)?p(z|u)，里面上面的推导过程可以求得。
具体的可以参考：
          Unsupervised learning by probabilisticlatent semantic analysis
          Latent Semantic Models for collaborativefiltering
          Google News Personalization Scalable Online CF

二、LDA（潜在狄瑞雷克模型）

和pLSA不同的是LDA中假设了很多先验分布（Dirichlet），且一般参数的先验分布都假设为Dirichlet分布，其原因是共轭分布时先验概率和后验概率的形式相同。