SpringBoot集成分词器Hanlp

常见的中文分词器

https://gitee.com/dongldl/my-cdn/raw/master/image/Snipaste_2021-01-03_15-45-11.png

一、添加依赖

<dependency>
     <groupId>com.hankcs</groupId>
      <artifactId>hanlp</artifactId>
      <version>portable-1.7.7</version>
</dependency>

二、下载data.zip, hanlp-release.zip

  • data.zip

  • hanlp-release.zip 因为是外网下载,所以会很慢 所以不能科学上网的朋友,那可以下载我在百度网盘分享的

链接:https://pan.baidu.com/s/1cHsc3iEYf7ZJDJHd1yJE4g 提取码:059p

data.zip包含dictionary和mode两个文件夹。

lhanlp-release.zip包含hanlp-1.7.6.jar、hanlp-1.7.6-sources.jar以及最重要的hanlp.properties。

解压data.zip得到data文件夹。

将data文件夹、hanlp.properties移动到java项目中,这里我移动到了resources中

https://gitee.com/dongldl/my-cdn/raw/master/image/Snipaste_2021-01-03_15-59-03.png

之后修改hanlp.properties,root的值就是data的解压文件。

root=E:/Hanlp

二、测试

NLPTokenizer.ANALYZER.enableCustomDictionary(true); // 使用用词典分词。
        System.out.println(NLPTokenizer.segment("在我国,春季田间管理的重点是夏季粮油作物,主要是冬小麦和油菜,产量超过全年粮食产量的五分之一。"));

测试结果: [在/p, 我国/n, ,/w, 春季/t, 田间管理/l, 的/u, 重点/n, 是/v, 夏季/t, 粮油/j, 作物/n, ,/w, 主要/d, 是/v, 冬小麦/n, 和/c, 油菜/n, ,/w, 产量/n, 超过/v, 全年/n, 粮食产量/nz, 的/u, 五分之一/m, 。/w]


参考文章: https://blog.csdn.net/u010992313/article/details/104224712

https://www.liangzl.com/get-article-detail-131106.html

end

评论