Reiziuh：创建页面，内容为“{{提示|该页面仍需进一步完善，欢迎加入我们}} 中文分词（Chinese Word Segmentation）是指将一个连续的汉字序列切分成一个个单…”

2018-08-23T02:33:44Z

创建页面，内容为“{{提示|该页面仍需进一步完善，欢迎加入我们}} 中文分词（Chinese Word Segmentation）是指将一个连续的汉字序列切分成一个个单…”

新页面

{{提示|该页面仍需进一步完善，欢迎加入我们}}

中文分词（Chinese Word Segmentation）是指将一个连续的汉字序列切分成一个个单独的词，或者说将汉字序列按照一定的规范重新组合成词序列的过程。

== 概述 ==
在英文中，单词之间以空格为自然分界符；而中文只是字、句和段能通过明显的分界符来简单划界，词没有一个形式上的分界符。在词的层面上，中文分词要比英文要复杂和困难得多。

=== 算法分类 ===
现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。
* '''字符匹配法'''：又称为机械分词方法，即按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。
* '''理解法'''：通过让计算机模拟人对句子的理解，达到识别词的效果；基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象；通常包括三个部分：分词子系统、句法语义子系统、总控部分。
* '''统计法'''：从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。
按照是否与词性标注过程相结合，又可以分为单纯分词方法、分词与标注相结合的一体化方法。

=== 技术难点 ===
在中文分词过程中，有两大难题一直没有完全突破。
* 歧义识别：歧义是指同样的一句话，可能有两种或者更多的切分方法；主要的歧义有两种：交集型歧义和组合型歧义。
* 新词识别：命名实体（人名、地名）、新词，专业术语称为未登录词；也就是那些在分词词典中没有收录，但又确实能称为词的那些词，最典型的是人名。

== 应用 ==
中文分词技术属于[[自然语言处理]]技术范畴，是[[文本挖掘]]的基础。通过分词，可达到电脑自动识别中文语句含义的效果，为词频分析，高频词提取，情感分析等处理做好准备。

== 实现 ==
常见项目：
* Word分词
* 智呈分词
* MFSOU中文分词PHP扩展
* SCWS
* FudanNLP
* ICTCLAS
* HTTPCWS
* CC-CEDICT
* IKAnalyzer
* Paoding（庖丁解牛分词）
* MMSEG4J
* 盘古分词
* Jcseg
* friso

== 参考链接 ==
* [https://baike.baidu.com/item/中文分词百度百科：中文分词]

中文分词 - 版本历史

Reiziuh：创建页面，内容为“{{提示|该页面仍需进一步完善，欢迎加入我们}} 中文分词（Chinese Word Segmentation）是指将一个连续的汉字序列切分成一个个单…”