DianaCody

subtitle,subtitle,subtitle

  • Home
  • Archives
  • Categories
  • Tags
  • About
  • Search

中文分词:原理及分词算法

Posted on 2014-11-05 | In NLP
词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。
Read more »

主题模型(二):pLSA和LDA

Posted on 2014-11-04 | In NLP
pLSA由LSA发展过来,而早期LSA的实现主要是通过SVD分解。和pLSA不同的是LDA中假设了很多先验分布(Dirichlet),且一般参数的先验分布都假设为Dirichlet分布。
Read more »

主题模型(一):条件概率、矩阵分解

Posted on 2014-11-03 | In Algorithm
两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让搜索更加智能化。
Read more »

文本分类:朴素贝叶斯Bayes

Posted on 2014-11-02 | In Algorithm
朴素贝叶斯主要用于文本分类。文本分类常见三大算法:KNN、朴素贝叶斯、支持向量机SVM。
Read more »

迭代决策树GBRT(渐进梯度回归树)

Posted on 2014-11-01 | In Algorithm
单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策树,比较典型的就是迭代决策树GBRT和随机森林RF.
Read more »
1…456
DianaCody

DianaCody

Researcher, Focus on Artificial Intelligence

29 posts
15 categories
62 tags
RSS
GitHub Facebook Twitter
Links
  • CSDN Blog
© 2013 - 2023 DianaCody
Powered by Hexo
Theme - NexT.Mist