solr4.3之配置中文分词smartcn

qindongliang1922

浏览: 2148995 次
性别:
来自: 北京

最近访客更多访客>>

godandghost

youhere

tanss

fengshuo850420

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：116368

: 证道Hadoop
浏览量：124633

: 证道shell编程
浏览量：58536

: ELK修真
浏览量：70410

文章分类

社区版块

存档分类

博客分类：

Solr

solr smart分词

solr4.3默认的分词器是一元分词器，这个本来就是对英文进行分词的，英文大部分就是典型的根据空格进行分词，而中文如果按照这个规则，那么显然是要有很多的冗余词被分出来，一些没有用的虚词，数词，都会被分出来，影响效率不说，关键是分词效果不好，所以可以利用solr的同步发行包smartcn进行中文切词，smartcn的分词准确率不错，但就是不能自己定义新的词库，不过smartcn是跟solr同步的，所以不需要额外的下载，只需在solr的例子中拷贝进去即可，下面给出路径图和安装solr4.3的smartcn分词过程
无论安装那种分词器，大部分都有2个步骤，第一步是拷贝jar包到solr的lib中

C:\桌面\solr-4.3.0\contrib\analysis-extras\lucene-libs
F:\eclipse10tomcat\webapps\solr\WEB-INF\lib
smartcn的同步发行包:lucene-analyzers-smartcn-4.3.0.jar

这个弄好之后，就需要在schemal.xml文件中，注册分词器了

<fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
       <!-- 此处需要配置主要的分词类 -->
        <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
		<!--  
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
		<filter class="solr.LowerCaseFilterFactory"/> 
		-->
        <!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
      -->
        
		<filter class="solr.SmartChineseWordTokenFilterFactory"/>
		  
      </analyzer>
      <analyzer type="query">
      <!-- 此处配置同上 -->
        <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
			<!-- 
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
		-->
		<filter class="solr.SmartChineseWordTokenFilterFactory"/>
		 
      </analyzer>
    </fieldType>

最后在引用一下字段类型就可以了

<field name="sma" type="text_smart" indexed="true" stored="true" multiValued="true"/>

访问http://localhost:8080/solr/#/collection1点击分词分析即可查看分词效果

分享到：

solr4.3之配置中文分词IK | lucene4.x的分组实现

2013-06-25 14:40
浏览 6052
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

solr4.3之配置中文分词smartcn

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

solr4.3之配置中文分词smartcn

评论

发表评论

相关推荐

最新版Solr6.2.1安装记录

ElasticSearch+Solr几个案例笔记

SolrCloud之Sharding路由介绍

SolrCloud6.1.0之SQL查询测试

Lucene/Solr/ElasticSearch搜索问题案例分析

Lucene+Solr+ElasticSearch查询匹配优化

如何通过JMX远程监控Solr?

如何实现Solr自定义评分查询

浅谈Lucene中的DocValues

开源大数据索引项目hive-solr

浅谈Solr和ElasticSearch建索引性能优化策略

如何使用Hive集成Solr?

Solr中如何使用游标进行深度分页查询

Hbase+Solr实现二级索引提供高效查询

SolrCloud5.4.1集群实战（一）

如何使用Spark大规模并行构建索引

如何在Solr中实现多core查询？

Solr配置maxBooleanClauses属性不生效原因分析

Solr如何避免查询条件过多异常

Solr中Group和Facet的用法

最近访客更多访客>>