<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-CN">
		<id>http://wiki.citydatum.com/index.php?action=history&amp;feed=atom&amp;title=%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D</id>
		<title>中文分词 - 版本历史</title>
		<link rel="self" type="application/atom+xml" href="http://wiki.citydatum.com/index.php?action=history&amp;feed=atom&amp;title=%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D"/>
		<link rel="alternate" type="text/html" href="http://wiki.citydatum.com/index.php?title=%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D&amp;action=history"/>
		<updated>2026-05-05T05:36:16Z</updated>
		<subtitle>本wiki的该页面的版本历史</subtitle>
		<generator>MediaWiki 1.29.1</generator>

	<entry>
		<id>http://wiki.citydatum.com/index.php?title=%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D&amp;diff=722&amp;oldid=prev</id>
		<title>Reiziuh：创建页面，内容为“{{提示|该页面仍需进一步完善，欢迎加入我们}}  中文分词（Chinese Word Segmentation）是指将一个连续的汉字序列切分成一个个单…”</title>
		<link rel="alternate" type="text/html" href="http://wiki.citydatum.com/index.php?title=%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D&amp;diff=722&amp;oldid=prev"/>
				<updated>2018-08-23T02:33:44Z</updated>
		
		<summary type="html">&lt;p&gt;创建页面，内容为“{{提示|该页面仍需进一步完善，欢迎加入我们}}  中文分词（Chinese Word Segmentation）是指将一个连续的汉字序列切分成一个个单…”&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{提示|该页面仍需进一步完善，欢迎加入我们}}&lt;br /&gt;
&lt;br /&gt;
中文分词（Chinese Word Segmentation）是指将一个连续的汉字序列切分成一个个单独的词，或者说将汉字序列按照一定的规范重新组合成词序列的过程。&lt;br /&gt;
&lt;br /&gt;
== 概述 ==&lt;br /&gt;
在英文中，单词之间以空格为自然分界符；而中文只是字、句和段能通过明显的分界符来简单划界，词没有一个形式上的分界符。在词的层面上，中文分词要比英文要复杂和困难得多。&lt;br /&gt;
&lt;br /&gt;
=== 算法分类 ===&lt;br /&gt;
现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。&lt;br /&gt;
* '''字符匹配法'''：又称为机械分词方法，即按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。&lt;br /&gt;
* '''理解法'''：通过让计算机模拟人对句子的理解，达到识别词的效果；基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象；通常包括三个部分：分词子系统、句法语义子系统、总控部分。&lt;br /&gt;
* '''统计法'''：从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。&lt;br /&gt;
按照是否与词性标注过程相结合，又可以分为单纯分词方法、分词与标注相结合的一体化方法。&lt;br /&gt;
&lt;br /&gt;
=== 技术难点 ===&lt;br /&gt;
在中文分词过程中，有两大难题一直没有完全突破。&lt;br /&gt;
* 歧义识别：歧义是指同样的一句话，可能有两种或者更多的切分方法；主要的歧义有两种：交集型歧义和组合型歧义。&lt;br /&gt;
* 新词识别：命名实体（人名、地名）、新词，专业术语称为未登录词；也就是那些在分词词典中没有收录，但又确实能称为词的那些词，最典型的是人名。&lt;br /&gt;
&lt;br /&gt;
== 应用 ==&lt;br /&gt;
中文分词技术属于[[自然语言处理]]技术范畴，是[[文本挖掘]]的基础。通过分词，可达到电脑自动识别中文语句含义的效果，为词频分析，高频词提取，情感分析等处理做好准备。&lt;br /&gt;
&lt;br /&gt;
== 实现 ==&lt;br /&gt;
常见项目：&lt;br /&gt;
* Word分词&lt;br /&gt;
* 智呈分词&lt;br /&gt;
* MFSOU中文分词PHP扩展&lt;br /&gt;
* SCWS&lt;br /&gt;
* FudanNLP&lt;br /&gt;
* ICTCLAS&lt;br /&gt;
* HTTPCWS&lt;br /&gt;
* CC-CEDICT&lt;br /&gt;
* IKAnalyzer&lt;br /&gt;
* Paoding（庖丁解牛分词）&lt;br /&gt;
* MMSEG4J&lt;br /&gt;
* 盘古分词&lt;br /&gt;
* Jcseg&lt;br /&gt;
* friso&lt;br /&gt;
&lt;br /&gt;
== 参考链接 ==&lt;br /&gt;
* [https://baike.baidu.com/item/中文分词 百度百科：中文分词]&lt;/div&gt;</summary>
		<author><name>Reiziuh</name></author>	</entry>

	</feed>