中文分词

来自Wiki.Citydatum
跳转至: 导航搜索
TODO
提示:该页面仍需进一步完善,欢迎加入我们


中文分词(Chinese Word Segmentation)是指将一个连续的汉字序列切分成一个个单独的词,或者说将汉字序列按照一定的规范重新组合成词序列的过程。

概述

在英文中,单词之间以空格为自然分界符;而中文只是字、句和段能通过明显的分界符来简单划界,词没有一个形式上的分界符。在词的层面上,中文分词要比英文要复杂和困难得多。

算法分类

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。

  • 字符匹配法:又称为机械分词方法,即按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
  • 理解法:通过让计算机模拟人对句子的理解,达到识别词的效果;基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象;通常包括三个部分:分词子系统、句法语义子系统、总控部分。
  • 统计法:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。

按照是否与词性标注过程相结合,又可以分为单纯分词方法、分词与标注相结合的一体化方法。

技术难点

在中文分词过程中,有两大难题一直没有完全突破。

  • 歧义识别:歧义是指同样的一句话,可能有两种或者更多的切分方法;主要的歧义有两种:交集型歧义和组合型歧义。
  • 新词识别:命名实体(人名、地名)、新词,专业术语称为未登录词;也就是那些在分词词典中没有收录,但又确实能称为词的那些词,最典型的是人名。

应用

中文分词技术属于自然语言处理技术范畴,是文本挖掘的基础。通过分词,可达到电脑自动识别中文语句含义的效果,为词频分析,高频词提取,情感分析等处理做好准备。

实现

常见项目:

  • Word分词
  • 智呈分词
  • MFSOU中文分词PHP扩展
  • SCWS
  • FudanNLP
  • ICTCLAS
  • HTTPCWS
  • CC-CEDICT
  • IKAnalyzer
  • Paoding(庖丁解牛分词)
  • MMSEG4J
  • 盘古分词
  • Jcseg
  • friso

参考链接