检索FAQ

Q1:不到1秒的时间怎么在网上检索到那么多的东东? 1 Q2:什么是倒排索引? 2 Q3:像mp3、image这种非文本对象怎么建立倒排索引? 2 Q4:为什么要进行切词?怎么进行切词? 2 Q5:检索系统是怎么实现Q1中所说的检索过程的? 2 Q6:前端检 …

Lucene/Solr常用资源

Solr官方wiki http://wiki.apache.org/solr/ Solrcloud官方wiki https://cwiki.apache.org/confluence/display/solr/SolrCloud Solr最新版本下载地址 http://www.apache.org/dyn/closer.cgi/lucene/solr/ Solr/Lucene历史版本下载地址 http://arch …

Solr游标查询提高翻页效率

长期以来,我们一直有一个深分页问题。如果直接跳到很靠后的页数,查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。与最近发布的Solr的版本中,Solr使用了所谓的游标大幅度提高深翻页 …

Tomcat上部署SolrCloud

  安装三个node的SolrCloud集群,配置3个zookeeper样例 SolrCloud 服务器: s1.solr.com,s2.solr.com,s3.solr.com Zookeeper 服务器: z1.com,z2.com,z3.com 默认安装目录 /home/myuser 首先启动zookeeper集群 按照顺序启动 z1.com,z2 …

Solr缓存

缓存在 Solr 中充当了一个非常重要的角色,Solr 中主要有这三种缓存: Filter cache(过滤器缓存),用于保存过滤器(fq 参数)和层面搜索的结果 Document cache(文档缓存),用于保存 lucene 文档存储的字段 Query result(查询缓存),用于保存查询 …

Solr4.2 新特性 DocValues

原文地址http://wiki.apache.org/solr/DocValues DocValues从Lucene4.2和Solr4.2开始加入,通过建立字段的正排索引,提升sorting, faceting, grouping, function queries等性能。 介绍 在Solr的配置文件(schema.xml)中,如果需要为一个Filed建立倒排 …

SolrJ使用教程

Solr4.x测试代码下载 Solr3.x版本 添加数据 import org.apache.solr.client.solrj.SolrServerException; import org.apache.solr.client.solrj.impl.CommonsHttpSolrServer; import org.apache.solr.common.SolrInputDocument; import java.io.IO …

搜索建议(suggest)配置

solrconfig.xml <requestHandler name=”/suggest” class=”solr.SearchHandler” startup=”lazy”> <lst name=”defaults”> <str name=”df”>text</str> <str name=”omitHeader”>true</str> <int name=”rows”> …

solr的一些查询语法

  1.1. 首先假设我的数据里fields有:name, tel, address 预设的搜寻是name这个字段, 如果要搜寻的数据刚好就是 name 这个字段,就不需要指定搜寻字段名称.   1.2. 查询规则: 如欲查询特定字段(非预设字段),请在查询词前加上该字段名 …

项目引入Solr时应该考虑的一些问题

1、数据更新频率:每天数据增量有多大,随时更新还是定时更新 2、数据总量:数据要保存多长时间 3、一致性要求:期望多长时间内看到更新的数据,最长允许多长时间延迟 4、数据特点:数据源包括哪些,平均单条记录大小 5、业务特点:有哪些排序要求, …

Solr原子更新

Solr4.0开始支持简单的原子更新和添加字段   参数说明 Solr支持多种修饰符,自动更新文档的值。 set – 更新一个字段 add – 添加一个字段 inc – 在原有值的基础上增加(看下面的例子更清楚) 备注: 所有原始字段必须存储(在fieldTyp …

Solr从数据库导入数据(DIH)

一. 数据导入(DataImportHandler-DIH) DIH 是solr 提供的一种针对数据库、xml/HTTP、富文本对象导入到solr 索引库的工具包。这里只针对数据库做介绍。 A、准备以下jar包 apache-solr-dataimporthandler-4.0.0.jar apache-solr-dataimporthand …

Solr函数查询

一. 函数查询(Function Query) 函数查询 可以利用 numeric域的值 或者 与域相关的的某个特定的值的函数,来对文档进行评分。 1. 使用函数查询的方法 这里主要有三种方法可以使用函数查询,这三种s方法都是通过solr http接口的。 1) 使用Fun …

Solr查询语法

1. 匹配所有文档:*:*   2. 强制、阻止和可选查询: 1) Mandatory:查询结果中必须包括的(for example, only entry name containing the word make) Solr/Lucene Statement:+make, +make +up ,+make +up +kiss 2) prohibited:(for  …

Solr查询参数QueryParam

1. CoreQueryParam查询的参数 1) q: 查询字符串,必须的。 2) q.op: 覆盖schema.xml的defaultOperator(有空格时用”AND”还是用”OR”操作逻辑),一般默认指定。 3) df: 默认的查询字段,一般默认指定。 4) qt: query type,指定查询使用的Quer …

Lucene查询语法

Lucene提供了丰富的API来组合定制你所需要的查询器,同时也可以利用 Query Parser提供的强大的查询语法解析来构造你想要的查询器。本文章详细的介绍了Lucene的查询语法。通过Java语法分析器把一个查询字符串解析成 Lucene的查询器。在你选择使用Query Par …

SOLR优化-filter cache

原文链接:http://java.dzone.com/news/merge-policy-internals-solr?mz=33057-solr_lucene

配置solr自动生成id

schema.xml ==================================================== <field name=”id” type=”uuid” indexed=”true” stored=”true” required=”true” /> <fieldType name=”uuid” class=”solr.UUIDField” indexed=”true” />   …

Solr如何按照年月日facet分层查询

这里假设我们的时间字段是timestamp 在schema.xml配置如下 <field name=”timestamp” type=”date” indexed=”true” stored=”true” default=”NOW+8HOUR” multiValued=”false”/> 查询参数如下: facet=true&facet.date=timestamp&fa …

solr记录时间不准

下面的配置可以自动添加当前时间到timestamp字段,这是按照格林威日时间记录的,我们在东8区