搜索引擎底层核心技术Lucune(三)-中文分词

中文分词的工具有很多种,参见常用的开源中文分词工具

目前结巴分词、中科院ICTCLA、清华大学THULAC、哈工大的LTP、庖丁用的普遍一些。当然也不是说其他算法分词软件不行,笔者最开始接触的IKAnalyzer用起来也很nice的。

其实中文分词要达到较好的效果,算法诚然重要,词库也是非常关键,而且词库还要与时俱进的自动更新,三年前的网络语言在今天已经是过去式了,如果词库不更新分词结果肯定是乱的一塌糊涂。

目前在大数据环境下,分词的速度又是一个新的挑战,所以速度和性能又会是一个需要权衡的点,总得有取舍。

最后附上一个经典的分词语料:工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作。

标签: none

相关文章推荐

添加新评论,含*的栏目为必填