中文分词
来自Wiki.Citydatum
中文分词(Chinese Word Segmentation)是指将一个连续的汉字序列切分成一个个单独的词,或者说将汉字序列按照一定的规范重新组合成词序列的过程。
概述
在英文中,单词之间以空格为自然分界符;而中文只是字、句和段能通过明显的分界符来简单划界,词没有一个形式上的分界符。在词的层面上,中文分词要比英文要复杂和困难得多。
算法分类
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。
- 字符匹配法:又称为机械分词方法,即按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
- 理解法:通过让计算机模拟人对句子的理解,达到识别词的效果;基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象;通常包括三个部分:分词子系统、句法语义子系统、总控部分。
- 统计法:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。
按照是否与词性标注过程相结合,又可以分为单纯分词方法、分词与标注相结合的一体化方法。
技术难点
在中文分词过程中,有两大难题一直没有完全突破。
- 歧义识别:歧义是指同样的一句话,可能有两种或者更多的切分方法;主要的歧义有两种:交集型歧义和组合型歧义。
- 新词识别:命名实体(人名、地名)、新词,专业术语称为未登录词;也就是那些在分词词典中没有收录,但又确实能称为词的那些词,最典型的是人名。
应用
中文分词技术属于自然语言处理技术范畴,是文本挖掘的基础。通过分词,可达到电脑自动识别中文语句含义的效果,为词频分析,高频词提取,情感分析等处理做好准备。
实现
常见项目:
- Word分词
- 智呈分词
- MFSOU中文分词PHP扩展
- SCWS
- FudanNLP
- ICTCLAS
- HTTPCWS
- CC-CEDICT
- IKAnalyzer
- Paoding(庖丁解牛分词)
- MMSEG4J
- 盘古分词
- Jcseg
- friso