lucene-contrib的介绍

wwty

浏览: 536840 次
性别:
来自: 北京-郑州

最近访客更多访客>>

yu690002351

jeans_1312

ClearLove

justplayoop1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

抓取搜索

lucene Ant 正则表达式 Swing 领域模型

analyzers下分为两个包：

common：提供了各种常用的分词工具，比如cjk分词，ChineseAnalyzer分词，以及泰语分词，巴西语言分词，荷兰语言分词等好多种语言的分词

smartcn

SmartChineseAnalyzer 是一个智能中文分词模块，能够利用概率对汉语句子进行最优切分，并内嵌英文tokenizer，能有效处理中英文混合的文本内容。它的原理基于自然语言处理领域的隐马尔科夫模型(HMM)，利用大量语料库的训练来统计汉语词汇的词频和跳转概率，从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分。因为智能分词需要词典来保存词汇的统计值，SmartChineseAnalyzer的运行需要指定词典位置，如何指定词典位置请参考 org.apache.lucene.analysis.cn.smart.AnalyzerProfile

SmartChineseAnalyzer

ant:

通过ant创建索引

Ant task to create Lucene indexes.

我可以把Lucene的索引保存在BerkeleyDB中么？

可以，你可以使用BerkeleyDB保存Lucene索引。使用DbDirectory对象即可。

Berkeley DB Java Edition (JE)是一个完全用JAVA写的，它适合于管理海量的，简单的数据。

highlighter：高亮

lucli

使用Lucene命令行接口LUCLI（Lucene Cmmand-Line Interface）。LUCLI是通过命令行操作索引信息的第三方工具

memory内存索引

regex正则表达式搜索

remote远程搜索

snowball经典分词用具主要支持欧洲语言

spatial位置感知搜索

spellchecker拼写检查，这个不错，比如用户搜索输错了，可以给用户一个提示

wordnet好像和同义词有关

xml-query-parser

不确定的包：

benchmark：好像和压力测试有关

collation：没看明白，不知道干嘛用：新增的Unicode支持及字符集（Collation）。

fast-vector-highlighter为大型文本新增快速向量高亮工具（fast-vector-highlighter）

instantiated：InstantiatedIndex，小型语料库替代的RAM存储

misc

queries

queryparser

surround

swing

wikipedia

分享到：

jre--java运行环境的安装 | ByteArrayInputStream和ByteArrayOutputStr ...

2010-06-09 22:44
浏览 1816
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论