`
wwty
  • 浏览: 536840 次
  • 性别: Icon_minigender_1
  • 来自: 北京-郑州
社区版块
存档分类
最新评论

lucene-contrib的介绍

阅读更多

analyzers下分为两个包:

common:提供了各种常用的分词工具,比如cjk分词,ChineseAnalyzer分词,以及泰语分词,巴西语言分词,荷兰语言分词等好多种语言的分词

smartcn

SmartChineseAnalyzer 是一个智能中文分词模块, 能够利用概率对汉语句子进行最优切分, 并内嵌英文tokenizer,能有效处理中英文混合的文本内容。 它的原理基于自然语言处理领域的隐马尔科夫模型(HMM), 利用大量语料库的训练来统计汉语词汇的词频和跳转概率, 从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分。 因为智能分词需要词典来保存词汇的统计值,SmartChineseAnalyzer的运行需要指定词典位置,如何指定词典位置请参考 org.apache.lucene.analysis.cn.smart.AnalyzerProfile
SmartChineseAnalyzer
ant:
通过ant创建索引
Ant task to create Lucene indexes. 
db
我可以把Lucene的索引保存在BerkeleyDB中么?
可以,你可以使用BerkeleyDB保存Lucene索引。使用DbDirectory对象即可。
Berkeley DB Java Edition (JE)是一个完全用JAVA写的,它适合于管理海量的,简单的数据。
highlighter:高亮
lucli
使用Lucene命令行接口LUCLI(Lucene Cmmand-Line Interface)。LUCLI是通过命令行操作索引信息的第三方工具
memory内存索引
regex正则表达式搜索
remote远程搜索
snowball经典分词用具 主要支持欧洲语言
spatial位置感知搜索
spellchecker拼写检查,这个不错,比如用户搜索输错了,可以给用户一个提示
wordnet好像和同义词有关
xml-query-parser
不确定的包:
benchmark:好像和压力测试有关
collation:没看明白,不知道干嘛用:新增的Unicode支持及字符集(Collation)。
fast-vector-highlighter为大型文本新增快速向量高亮工具(fast-vector-highlighter)
instantiated:InstantiatedIndex,小型语料库替代的RAM存储
misc
queries
queryparser
surround
swing
wikipedia

分享到:
评论

相关推荐

    lucene 3.0.1 jar包

    该一整套lucene开发jar包包含以下内容...contrib\analyzers\common\lucene-analyzers-3.0.1.jar(分词器) contrib\highlighter\lucene-highlighter-3.0.1.jar(高亮) contrib\memory\lucene-memory-3.0.1.jar(高亮)

    clucene-contrib-0.9.13.zip_C lucene_lucene

    lucene in java大家一定听说过了,这个是它的c版本,效率上会有所提高,但是稳定性可能会下降,希望对大家有用

    poi lucene jar 包

    包括以下: commons-codec-1.5.jar commons-logging-1.1.jar ...poi-contrib-3.5-beta6-20090622.jar poi-ooxml-3.5-beta6-20090622.jar poi-scratchpad-3.5-beta6-20090622.jar xmlbeans-2.3.0.jar

    lucene3.6.1

    lucene core contrib包。core是lucene的核心包、contrib中有关键词高亮、各种语言分析器等辅助工具包

    Lucene SpellChecker3.0.2

    Lucene SpellChecker for Lucene 3.0.2

    lucene 3.0.2

    lucene library. lucene-demos-XX.jar The compiled simple example code. luceneweb.war The compiled simple example Web Application. contrib/* Contributed code which extends and enhances Lucene, but...

    Lucene.Net

    contrib/* Contributed code which extends and enhances Apache Lucene.Net, but is not part of the core library. DOCUMENTATION MSDN style API documentation for Apache Lucene.Net exists. Those can be ...

    ik对应的7.x分词器

    1、复制lucene-analyzers-smartcn-7.2.0.jar(在contrib/analysis-extras/lucene-libs目录下)到server/solr-webapp/webapp/WEB-INF/lib目录下 2、在managed-schema(在server/solr/stu/conf目录下,这里选的自定义...

    C 搜索引擎Lucene .zip

    Lucene 是 Java Lucene 搜索引擎的 C 移植版本。包含组件:liblucene libraryliblucene -contrib librarylucene -tester (unit tester)deletefiles (demo)indexfiles (demo)searchfiles (demo) 标签:lucene

    hadoop.contrib/lucene源码

    hadoop框架,mapreduce利用Lucene构建倒排索引的源码!

    使用Lucene.net进行全文搜索

    使用Lucene.net进行全文查找多关键字匹配

    lucene2.9.1所有最新开发包及源码及文档

    (LUCENE_HOME/contrib/analyzers/smartcn/lucene-smartcn-2.9.1.jar) C) 第三方的中文分词器:如PaodingAnalyzer、IKAnalyzer 4) IndexWriter.MaxFieldLength: 指定域值的最大长度。 a) UNLIMITED 无限制的。 ...

    LucenePlusPlus:Lucene ++是流行的Java Lucene库(一种高性能,功能齐全的文本搜索引擎)的最新C ++端口。

    liblucene ++-contrib库 lucene ++-tester(单元测试器) deletefiles(演示) 索引文件(演示) 搜索文件(演示) 有关构建Lucene ++套件的信息,请阅读doc / BUILDING.md 有用的资源 官方与Lucene和lucene ++...

    Lucene用到的DLL及文件

    Lucene用到的DLL及文件,自己做项目的时候有需要的到的,希望能帮助到有需要的人,

    Lucene.net3.0.3源码

    Apache Lucene.Net 3.0.3 just passed a vote for release - our first official release since graduating from the incubator in August. A lot of work was put into porting and testing the code. We've ...

    Lucene.Net_2_9_1

    lucene.net 是一个非常优秀的全文检索类库。有了它你可以比较轻松的着手开发自己的的搜索引擎 这...contrib/* Contributed code which extends and enhances Apache Lucene.Net, but is not part of the core library.

    solr-mapreduce-indexer:Solrlucene Contrib Mapreduce索引器工具的部分副本,可在Solr 6.x上运行,并具有一些错误修复和在其中编译的依赖项

    lucene-solr Solr MapReduce contrib项目的副本。 使用shade插件将其重新打包为Maven项目,以避免打包和清单冲突。 这使我们可以在hadoop集群上运行它,该集群通常在类路径上具有冲突的较旧solr和lucene jars。 这...

    lucene的jar

    Apache Lucene Copyright 2006 The Apache Software Foundation This product includes software developed by The Apache Software Foundation (http://www.apache.org/). The snowball stemmers in contrib/...

    solr6对应的IKAnalyzer分词器

    1. 添加分词器的jar文件:在文件夹`contrib`下新建一个文件夹`rd-lib`,并将`IKAnalyzer2012_u6.jar`拷贝进来,这个文件夹用来存放第三方jar文件,后面做数据导入时候,用到的数据库驱动也放到这个文件夹下。...

    solr用到的jar包

    下载

Global site tag (gtag.js) - Google Analytics