常见的中文分词器
一、添加依赖
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.7</version>
</dependency>
二、下载data.zip, hanlp-release.zip
-
hanlp-release.zip 因为是外网下载,所以会很慢 所以不能科学上网的朋友,那可以下载我在百度网盘分享的
链接:https://pan.baidu.com/s/1cHsc3iEYf7ZJDJHd1yJE4g 提取码:059p
data.zip包含dictionary和mode两个文件夹。
lhanlp-release.zip包含hanlp-1.7.6.jar、hanlp-1.7.6-sources.jar以及最重要的hanlp.properties。
解压data.zip得到data文件夹。
将data文件夹、hanlp.properties移动到java项目中,这里我移动到了resources中
之后修改hanlp.properties,root的值就是data的解压文件。
root=E:/Hanlp
二、测试
NLPTokenizer.ANALYZER.enableCustomDictionary(true); // 使用用词典分词。
System.out.println(NLPTokenizer.segment("在我国,春季田间管理的重点是夏季粮油作物,主要是冬小麦和油菜,产量超过全年粮食产量的五分之一。"));
测试结果: [在/p, 我国/n, ,/w, 春季/t, 田间管理/l, 的/u, 重点/n, 是/v, 夏季/t, 粮油/j, 作物/n, ,/w, 主要/d, 是/v, 冬小麦/n, 和/c, 油菜/n, ,/w, 产量/n, 超过/v, 全年/n, 粮食产量/nz, 的/u, 五分之一/m, 。/w]
参考文章: https://blog.csdn.net/u010992313/article/details/104224712
https://www.liangzl.com/get-article-detail-131106.html
评论