Solr索引:重新索引策略与最佳实践详解
概述
在Solr配置发生某些类型的更改时,特别是模式更改时,需要重新索引数据。这些更改包括编辑字段或字段类型的属性、添加字段或复制字段规则、升级Solr以及更改某些系统配置属性。
重要的是要意识到,未能重新索引可能会对Solr或用户查找所需内容产生明显和微妙的后果。
在这种情况下,”重新索引”意味着首先删除现有索引,然后重复用于从记录系统中摄取整个语料库的过程。强烈建议Solr用户有一个一致、可重复的索引过程,以便在需要时重新创建索引。
重新索引的核心概念
定义与重要性
重新索引不是简单地重新摄取所有文档,而是确保所有文档和Lucene段都被删除后的完全重建过程。这是因为Lucene索引是一个为快速搜索而设计的有损抽象,一旦文档添加到索引中,就不能假定原始数据仍然可用。
Solr模式与Lucene索引的关系
理解为什么需要重新索引的关键是了解Solr模式和底层Lucene索引之间的关系:
- Lucene不使用模式:模式是仅有的Solr概念
- 模式充当索引规则书:告诉Lucene如何解释发送的数据
- 一旦文档在Lucene中,模式就无法控制底层数据结构
这与大多数使用模式的数据库模型不同。当索引时,Solr的模式就像一个索引文档的规则书,告诉Lucene如何解释正在发送的数据。
需要重新索引的更改
模式更改
除少数例外,对集合模式的更改都需要重新索引。这是因为许多可用选项只在索引过程中应用,Solr无法在不重新索引数据的情况下实现所需的更改。
更改字段和字段类型属性
当您通过添加字段、删除字段或更改字段或字段类型定义来更改模式时,通常是为了让这些更改改变文档的搜索方式。这些更改的全部效果要到重新索引所有文档后才会在整个语料库中体现出来。
必须重新索引的字段类型属性更改:
indexed
:影响字段是否可搜索stored
:影响字段值是否存储docValues
:影响排序、分面和分组multiValued
:影响字段值数量required
:影响文档验证termVectors
:影响高亮和相似性计算
注意事项:
不建议在不重新索引的情况下更改影响索引的字段属性。只有对后果有透彻理解时才应尝试此操作。对用户的负面影响可能不会立即显现。
更改字段分析
分析链也在字段类型上配置,并在索引和查询时应用:
- 仅查询时分析链更改:如果为字段定义了单独的查询和索引分析链,且您只更改查询时分析链,则不需要重新索引
- 索引时分析链更改:对索引时分析链的任何更改几乎在所有情况下都需要重新索引
Solrconfig更改
识别需要重新索引的solrconfig.xml更改不那么直观。一般规则是”任何改变索引中存储内容的更改都需要重新索引”。
已知需要重新索引的配置更改
luceneMatchVersion参数:
- 控制Solr与Lucene的兼容性
- 可能在幕后改变分析规则
- 更改时总是建议重新索引
- 通常只在主要升级时更改
更新请求处理器:
- 如果更改了更新请求处理器,通常是为了改变更新请求(文档)的处理(索引)方式
- 建议重新索引文档以实现所做的更改
codecFactory参数:
- 如果更改了solrconfig.xml中的codecFactory参数
- 强烈建议计划重新索引文档以避免意外行为
版本更改
模式版本属性:
更改模式version
属性等同于更改字段类型属性。这种更改通常只在主要升级期间或因主要升级而进行。
升级场景
主要版本升级
当在主要版本之间升级(例如,从7.x版本到8.x)时,最佳实践是始终重新索引数据。原因是默认字段类型定义或底层代码可能发生微妙变化。
向后兼容性
Lucene兼容性保证:
- Lucene努力确保一个主要版本的向后兼容性
- Solr 8x可以与Solr 7x创建的索引一起工作
- 但这种保证不适用于Solr X-2(在此例中是Solr 6x)
升级注意事项
次要版本升级:
如果作为从一个次要版本升级到另一个版本(如从7.x到更高的7.x版本)的一部分,您没有更改模式,通常可以跳过重新索引文档。但是,升级到主要版本时,应该计划重新索引文档。
旧版本索引:
当升级使用比X-1更旧的Solr版本生成的索引时,必须始终重新索引语料库。例如,如果您升级到Solr 8x,曾经被Solr 6x使用的索引必须删除并按下面概述的方式重新摄取。
写入了标识用于摄取第一个文档的Lucene版本的标记。该标记在索引中永久保留,除非索引被完全删除。如果Lucene发现标记比X-1主要版本更旧,它将拒绝打开索引。
重新索引策略
删除所有文档策略
最佳方法是首先从索引中删除所有内容,然后重新索引数据。
执行步骤
- 删除所有文档:
1 | curl -X POST -H 'Content-Type: application/json' --data-binary '{"delete":{"query":"*:*" }}' http://localhost:8983/solr/my_collection/update |
- 提交删除操作:
1 | curl -X POST -H 'Content-Type: application/json' --data-binary '{"commit":{}}' http://localhost:8983/solr/my_collection/update |
- 验证删除完成:
- 确认所有文档都已删除
- 检查data/index目录并确认没有段文件
- 在集群的每个节点的每个分片和每个副本中验证索引已被删除
- 重新开始索引:
一旦索引被清除,您可以通过重新运行原始索引过程开始重新索引。
验证段删除
检查索引段:
1 | # 检查索引目录 |
集群验证:
在SolrCloud环境中,需要在集群的每个节点、每个分片和每个副本上验证索引删除。仅查询文档数量是不够的,因为您可能没有文档但仍有索引段。
替代方案
另一种方法是使用更新的模式删除并重新创建集合,然后重新索引,前提是您可以承担集合在重新索引过程中离线。
1 | # 删除集合 |
索引到另一个集合策略
另一种方法是索引到新集合并使用Solr的集合别名功能无缝地将应用程序指向新集合而不停机。
适用场景
此选项仅适用于在SolrCloud模式下运行的Solr安装。
执行步骤
- 创建新集合:
1 | curl "http://localhost:8983/solr/admin/collections?action=CREATE&name=my_collection_v2&numShards=2&replicationFactor=2" |
索引到新集合:
使用更改将文档索引到使用您的更改的新集合中。测试新集合:
完成索引和测试后,验证新集合的功能。创建别名:
1 | curl "http://localhost:8983/solr/admin/collections?action=CREATEALIAS&name=my_collection_alias&collections=my_collection_v2" |
切换应用程序:
将前端应用程序指向别名,新查询和更新将无缝路由到新集合。清理旧集合:
1 | curl "http://localhost:8983/solr/admin/collections?action=DELETE&name=my_collection" |
优势和注意事项
优势:
- 如果发现测试未发现的问题,可以切换回旧集合
- 零停机时间
注意事项:
- 需要更多资源直到可以删除旧集合
- 需要SolrCloud环境
蓝绿部署策略
概念
蓝绿部署是索引到另一个集合策略的扩展,维护两个完整的生产环境。
实施步骤
维护两套环境:
- 蓝色环境:当前生产环境
- 绿色环境:新版本环境
在绿色环境中重新索引:
- 应用所有模式和配置更改
- 完整重新索引数据
测试绿色环境:
- 进行全面功能测试
- 性能测试
- 数据一致性验证
切换流量:
- 使用负载均衡器或DNS切换
- 监控切换后的系统状态
保留蓝色环境:
- 保留一段时间以便快速回滚
- 确认绿色环境稳定后清理
最佳实践
准备工作
备份策略
- 数据备份:
1 | # 创建索引备份 |
- 配置备份:
- 备份所有配置文件
- 版本控制管理配置变更
- 记录变更日志
测试环境
建立测试环境:
- 复制生产环境配置
- 使用生产数据样本
- 验证重新索引过程
性能测试:
- 索引性能测试
- 查询性能验证
- 内存和磁盘使用监控
执行过程
重新索引计划
制定详细计划:
- 确定维护窗口
- 评估索引时间
- 准备回滚方案
资源准备:
- 确保足够的磁盘空间
- 监控内存使用
- 准备额外的计算资源
监控和验证
- 索引过程监控:
1 | # 监控索引进度 |
- 数据验证:
1 | # 检查文档数量 |
- 功能测试:
- 验证搜索功能
- 测试分面和排序
- 检查高亮和建议功能
风险控制
风险评估
数据风险:
- 数据丢失风险
- 索引不一致风险
- 性能降级风险
业务风险:
- 服务中断风险
- 用户体验影响
- 数据查询准确性
风险缓解
渐进式部署:
- 先在非生产环境测试
- 分阶段推出到生产环境
- 监控每个阶段的指标
快速回滚机制:
- 保留旧版本索引
- 准备快速切换脚本
- 建立告警和监控系统
不需要重新索引的更改
配置更改
不需要或强烈指示重新索引的更改类型是不影响索引的更改:
请求处理器更改:
- 创建或修改请求处理器
- 搜索组件配置
- solrconfig.xml的其他元素
集群管理操作:
- 添加节点、副本或新核心
- 分片拆分
- 集群管理操作
查询相关配置
- 查询解析器配置
- 响应编写器设置
- 缓存配置
- 日志配置
这些更改不会影响索引数据的存储方式,因此不需要重新索引。
故障排除
常见问题
重新索引后性能下降
可能原因:
- 索引段过多
- 内存配置不当
- 字段配置变更影响查询性能
解决方案:
1 | # 优化索引 |
数据不一致
检查步骤:
- 验证所有文档都已重新索引
- 检查字段映射配置
- 验证分析器配置
解决方法:
1 | # 检查文档数量 |
索引过程中断
恢复步骤:
- 确定中断点
- 清理部分索引数据
- 重新开始索引过程
调试技巧
日志分析
- 启用详细日志:
1 | <logger name="org.apache.solr.update" level="INFO"/> |
- 监控关键指标:
- 索引速度
- 内存使用
- 错误日志
性能监控
1 | # 监控JVM内存 |
自动化和脚本化
重新索引脚本示例
1 |
|
监控脚本
1 |
|
总结
重新索引是Solr维护中的重要操作,需要仔细计划和执行。理解何时需要重新索引、如何安全执行以及如何验证结果对于维护健康的Solr集群至关重要。
关键要点
- 预防胜于治疗:在生产环境应用更改之前,在测试环境中验证所有模式和配置更改
- 完整删除索引:确保删除所有文档和Lucene段,而不仅仅是重新摄取文档
- 选择合适的策略:根据业务需求和资源情况选择删除重建或蓝绿部署策略
- 监控和验证:持续监控重新索引过程并验证结果
- 准备回滚方案:始终准备好快速回滚机制以应对意外情况
通过遵循这些最佳实践和策略,您可以确保重新索引过程的成功执行,同时最小化业务影响和数据风险。