中文分词:原理及分词算法
词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。
subtitle,subtitle,subtitle