上一篇讲了使用solr4.3自带的smartcn进行中文分词,这一篇说一下,怎么使用IK进行分词,
在这之前先对中文分词的种类介绍一下,目前的中文分词主要有两种
1,基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器,例如smartcn等。(不支持自定义扩展词库)
2,基于正向迭代最细粒度切分算法(正向最大匹配并且最细分词)例如IK,庖丁等(支持自定义扩展词库)
安装分词前,可以去http://code.google.com/p/ik-analyzer/downloads/list下载IK的分词包
ikanalyzer-4.3.1-SNAPSHOT.jar
下载完毕后,将此包放进solr的\WEB-INF\lib下面
F:\eclipse10tomcat\webapps\solr\WEB-INF\lib
下面需要在solr的schemal.xml进行分词器注册,给出代码如下
<!-- 配置IK分词器 -->
<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<!-- 分词-->
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>
<!-- 禁用词过滤根据情况使用-->
<!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/> -->
</analyzer>
<analyzer type="query">
<!-- 分词-->
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>
<!-- 禁用词过滤根据情况使用-->
<!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/>-->
</analyzer>
</fieldType>
最后还得配置一个引用字段就OK了
<field name="ik" type="text_ik" indexed="true" stored="true" multiValued="true"/>
然后访问UI管理器页面,可以使用Analysis进行中文切词分析测试,个人感觉IK的词库要比smartcn的词库大,不过两者各有优缺点,可以视具体业务情况而定,选择自己项目最合适的分词器。
分享到:
相关推荐
最新版solr4.3的IK分词器,中文分词效果良好!对付一般的大众分词没有问题
solr4.3 分词器 把IKAnalyzer.jar放到solr\WEB-INF\lib下。
solr 6.4.1配置中文分词IK所需资源,配置见博客:https://my.oschina.net/u/126875/blog/836858
Solr安装与整合中文分词IKAnalyzer,作为初学者,跟随网络上前辈的脚步,一步步实现,谢谢前辈们
最高版本的 solr 中文分词配置 , 小弟已经测试过了 里面的 jar 要到各官网上下载
支持solr5.5 solr6.0中IK分词需要的资料
solr6的中文分词器ik-analyzer-solr-6.0.jar,在solr上亲测可用
solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0
适应solr5.x的中文分词IKAnalyzer
IK分词solr5.0.0
solr7.2.1环境搭建和中文分词器IK配置 亲测可用,安装过程自己记录的。
ik-analyzer-5.01-for solr4.3.jar
IKAnalyzer中文分词器本身已经不支持最新的solr 5,集成到solr中分词会报错,这里将解决了solr 5支持问题的最新IK包共享出来,希望能帮到各位! 附上IK在schema.xml中的配置: <fieldType name="text_ik" class=...
solr安装ik分词器将jar复制到solr\WEB-INF\lib 中 具体使用:https://mp.csdn.net/postedit
solr5的ik中文分词器源码,解压后需要自己打包成jar包
solr4.1版本 windows 和Linux系统的都有,IK中文分词器。
NULL 博文链接:https://jsxzzliang.iteye.com/blog/852460
solr5.5使用的IK分词IKAnalyzer2012FF_u2.jar包,亲测可用。以及solr5.5同mysql数据同步用到的solr-dataimportscheduler-1.1.1.jar包,亲测可用。
solr6.x_IK中文分词工具,solr6.x_IK中文分词工具,solr6.x_IK中文分词工具
solr4.3的ik分词器(改了一些smart分词算法。使用maven编译),隔壁有我写的包 支持从solr自己的环境中获取自定义词典(使用solr的ResourceLoader,只需要把字典文件放到对应索引的conf目录里) 增加一个定时更新类...