本文共 907 字,大约阅读时间需要 3 分钟。
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。
一、版本信息
solr版本:4.7.0
需要ik-analyzer版本:IK Analyzer 2012FF_hf1
ik-analyzer下载地址:
二、配置步骤
下载压缩解压后得到如下目录结构的文件夹:
我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。
我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。
修改core的schema.xml,在<types></types>配置项间加一段如下配置:
我们就多了一种text_ik的field类型了,该类型使用的分词器就是。
我们在这个core的schema.xml里面配置field类型的时候就可以使用text_ik了。
三、中文分词测试
IKT textraw_bytesstartendtypeposition 中华人民共和国[e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]07CN_WORD1 中华人民[e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91]04CN_WORD2 中华[e4 b8 ad e5 8d 8e]02CN_WORD3 华人[e5 8d 8e e4 ba ba]13CN_WORD4 人民共和国[e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]27CN_WORD5 人民[e4 ba ba e6 b0 91]24CN_WORD6 共和国[e5 85 b1 e5 92 8c e5 9b bd]47CN_WORD7 共和[e5 85 b1 e5 92 8c]46CN_WORD8 国[e5 9b bd]67CN_CHAR9