Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。
Lucene最初是由Doug Cutting所撰写的,是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎的主要开发者,后来在Excite担任高级系统架构设计师,目前从事 于一些INTERNET底层架构的研究。他贡献出Lucene的目标是为各种中小型应用程式加入全文检索功能。
新版本的亮点包括:
- XYPointField 允许在平面 X,Y 空间中建立点索引,并有效地查找边界框、距离或任意多边形内的文档
- LatLonShape 上的新查询构建器可以有效地查找与点或多边形具有特定关系的文档
- 可以在“点”字段中存储多达 16 个数据维度
- KoreanTokenizer 支持自定义词典
- 二进制 doc 值现在已压缩,并且术语词典已改进压缩
- 如果所有文档值更新都将单个字段更新为相同的值,则索引刷新速度最高可提高 20%
- 现在,存储的字段和术语向量的索引是堆外存储的
- 基于 QueryBuilder 的查询解析器可以通过在令牌流上设置 BoostAttribute 值来提升特定术语或同义词
- 间隔查询可正确处理有序和无序源中的重复子项