中文分词

提示：该页面仍需进一步完善，欢迎加入我们

中文分词（Chinese Word Segmentation）是指将一个连续的汉字序列切分成一个个单独的词，或者说将汉字序列按照一定的规范重新组合成词序列的过程。

概述

在英文中，单词之间以空格为自然分界符；而中文只是字、句和段能通过明显的分界符来简单划界，词没有一个形式上的分界符。在词的层面上，中文分词要比英文要复杂和困难得多。

现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。

字符匹配法：又称为机械分词方法，即按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。
理解法：通过让计算机模拟人对句子的理解，达到识别词的效果；基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象；通常包括三个部分：分词子系统、句法语义子系统、总控部分。
统计法：从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。

按照是否与词性标注过程相结合，又可以分为单纯分词方法、分词与标注相结合的一体化方法。

在中文分词过程中，有两大难题一直没有完全突破。

中文分词技术属于自然语言处理技术范畴，是文本挖掘的基础。通过分词，可达到电脑自动识别中文语句含义的效果，为词频分析，高频词提取，情感分析等处理做好准备。

常见项目：