analyzers下分为两个包:
common:提供了各种常用的分词工具,比如cjk分词,ChineseAnalyzer分词,以及泰语分词,巴西语言分词,荷兰语言分词等好多种语言的分词
smartcn
SmartChineseAnalyzer 是一个智能中文分词模块, 能够利用概率对汉语句子进行最优切分, 并内嵌英文tokenizer,能有效处理中英文混合的文本内容。 它的原理基于自然语言处理领域的隐马尔科夫模型(HMM), 利用大量语料库的训练来统计汉语词汇的词频和跳转概率, 从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分。 因为智能分词需要词典来保存词汇的统计值,SmartChineseAnalyzer的运行需要指定词典位置,如何指定词典位置请参考 org.apache.lucene.analysis.cn.smart.AnalyzerProfile
SmartChineseAnalyzer
ant:
通过ant创建索引
Ant task to create Lucene indexes.
db
我可以把Lucene的索引保存在BerkeleyDB中么?
可以,你可以使用BerkeleyDB保存Lucene索引。使用DbDirectory对象即可。
Berkeley DB Java Edition (JE)是一个完全用JAVA写的,它适合于管理海量的,简单的数据。
lucli
使用Lucene命令行接口LUCLI(Lucene Cmmand-Line Interface)。LUCLI是通过命令行操作索引信息的第三方工具
memory内存索引
regex正则表达式搜索
remote远程搜索
snowball经典分词用具 主要支持欧洲语言
spatial位置感知搜索
spellchecker拼写检查,这个不错,比如用户搜索输错了,可以给用户一个提示
wordnet好像和同义词有关
xml-query-parser
不确定的包:
benchmark:好像和压力测试有关
collation:没看明白,不知道干嘛用:新增的Unicode支持及字符集(Collation)。
fast-vector-highlighter为大型文本新增快速向量高亮工具(fast-vector-highlighter)
instantiated:InstantiatedIndex,小型语料库替代的RAM存储
分享到:
相关推荐
该一整套lucene开发jar包包含以下内容...contrib\analyzers\common\lucene-analyzers-3.0.1.jar(分词器) contrib\highlighter\lucene-highlighter-3.0.1.jar(高亮) contrib\memory\lucene-memory-3.0.1.jar(高亮)
lucene in java大家一定听说过了,这个是它的c版本,效率上会有所提高,但是稳定性可能会下降,希望对大家有用
包括以下: commons-codec-1.5.jar commons-logging-1.1.jar ...poi-contrib-3.5-beta6-20090622.jar poi-ooxml-3.5-beta6-20090622.jar poi-scratchpad-3.5-beta6-20090622.jar xmlbeans-2.3.0.jar
lucene core contrib包。core是lucene的核心包、contrib中有关键词高亮、各种语言分析器等辅助工具包
Lucene SpellChecker for Lucene 3.0.2
lucene library. lucene-demos-XX.jar The compiled simple example code. luceneweb.war The compiled simple example Web Application. contrib/* Contributed code which extends and enhances Lucene, but...
contrib/* Contributed code which extends and enhances Apache Lucene.Net, but is not part of the core library. DOCUMENTATION MSDN style API documentation for Apache Lucene.Net exists. Those can be ...
1、复制lucene-analyzers-smartcn-7.2.0.jar(在contrib/analysis-extras/lucene-libs目录下)到server/solr-webapp/webapp/WEB-INF/lib目录下 2、在managed-schema(在server/solr/stu/conf目录下,这里选的自定义...
Lucene 是 Java Lucene 搜索引擎的 C 移植版本。包含组件:liblucene libraryliblucene -contrib librarylucene -tester (unit tester)deletefiles (demo)indexfiles (demo)searchfiles (demo) 标签:lucene
hadoop框架,mapreduce利用Lucene构建倒排索引的源码!
使用Lucene.net进行全文查找多关键字匹配
(LUCENE_HOME/contrib/analyzers/smartcn/lucene-smartcn-2.9.1.jar) C) 第三方的中文分词器:如PaodingAnalyzer、IKAnalyzer 4) IndexWriter.MaxFieldLength: 指定域值的最大长度。 a) UNLIMITED 无限制的。 ...
liblucene ++-contrib库 lucene ++-tester(单元测试器) deletefiles(演示) 索引文件(演示) 搜索文件(演示) 有关构建Lucene ++套件的信息,请阅读doc / BUILDING.md 有用的资源 官方与Lucene和lucene ++...
Lucene用到的DLL及文件,自己做项目的时候有需要的到的,希望能帮助到有需要的人,
Apache Lucene.Net 3.0.3 just passed a vote for release - our first official release since graduating from the incubator in August. A lot of work was put into porting and testing the code. We've ...
lucene.net 是一个非常优秀的全文检索类库。有了它你可以比较轻松的着手开发自己的的搜索引擎 这...contrib/* Contributed code which extends and enhances Apache Lucene.Net, but is not part of the core library.
lucene-solr Solr MapReduce contrib项目的副本。 使用shade插件将其重新打包为Maven项目,以避免打包和清单冲突。 这使我们可以在hadoop集群上运行它,该集群通常在类路径上具有冲突的较旧solr和lucene jars。 这...
Apache Lucene Copyright 2006 The Apache Software Foundation This product includes software developed by The Apache Software Foundation (http://www.apache.org/). The snowball stemmers in contrib/...
1. 添加分词器的jar文件:在文件夹`contrib`下新建一个文件夹`rd-lib`,并将`IKAnalyzer2012_u6.jar`拷贝进来,这个文件夹用来存放第三方jar文件,后面做数据导入时候,用到的数据库驱动也放到这个文件夹下。...
下载