查看“中文分词”的源代码
←
中文分词
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
{{提示|该页面仍需进一步完善,欢迎加入我们}} 中文分词(Chinese Word Segmentation)是指将一个连续的汉字序列切分成一个个单独的词,或者说将汉字序列按照一定的规范重新组合成词序列的过程。 == 概述 == 在英文中,单词之间以空格为自然分界符;而中文只是字、句和段能通过明显的分界符来简单划界,词没有一个形式上的分界符。在词的层面上,中文分词要比英文要复杂和困难得多。 === 算法分类 === 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。 * '''字符匹配法''':又称为机械分词方法,即按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。 * '''理解法''':通过让计算机模拟人对句子的理解,达到识别词的效果;基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象;通常包括三个部分:分词子系统、句法语义子系统、总控部分。 * '''统计法''':从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。 按照是否与词性标注过程相结合,又可以分为单纯分词方法、分词与标注相结合的一体化方法。 === 技术难点 === 在中文分词过程中,有两大难题一直没有完全突破。 * 歧义识别:歧义是指同样的一句话,可能有两种或者更多的切分方法;主要的歧义有两种:交集型歧义和组合型歧义。 * 新词识别:命名实体(人名、地名)、新词,专业术语称为未登录词;也就是那些在分词词典中没有收录,但又确实能称为词的那些词,最典型的是人名。 == 应用 == 中文分词技术属于[[自然语言处理]]技术范畴,是[[文本挖掘]]的基础。通过分词,可达到电脑自动识别中文语句含义的效果,为词频分析,高频词提取,情感分析等处理做好准备。 == 实现 == 常见项目: * Word分词 * 智呈分词 * MFSOU中文分词PHP扩展 * SCWS * FudanNLP * ICTCLAS * HTTPCWS * CC-CEDICT * IKAnalyzer * Paoding(庖丁解牛分词) * MMSEG4J * 盘古分词 * Jcseg * friso == 参考链接 == * [https://baike.baidu.com/item/中文分词 百度百科:中文分词]
该页面使用的模板:
模板:提示
(
查看源代码
)
返回至
中文分词
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
分类索引
最近更改
随机页面
用户指南
编辑助手
工具
链入页面
相关更改
特殊页面
页面信息