Solr 实战

  • 出版时间: 2017年05月01日
  • 作者: (美)Trey Grainger(崔.格兰杰) , Timothy Potter(提摩斯.波特)
  • 浏览: 79
  • 发表评论

在搜索引擎视域下,循序渐进地介绍了Solr是什么、Solr 能做什么,以及如何更好地使用Solr 进行开发。在搜索基础层,本书从Solr 的快速搭建入手,介绍了Solr 背后的信息检索基本概念,之后重点讲解了构建一个搜索引擎所需的核心模块:索引构建、文本分析、执行搜索及处理搜索结果。在搜索功能层,详细介绍了Solr 的四大增强型搜索功能:分面搜索、搜索结果高亮、查询建议、搜索结果分组等。在搜索研究的进阶层,介绍了SolrCloud、多语种搜索及复杂查询操作等。最后,围绕搜索引擎的本质核心问题“相关度”展开了讨论与展望。

第1部分初识Solr

1Solr入门

1.1为什么需要搜索引擎

1.1.1管理以文本为中心的数据

1.1.2常见的搜索引擎用例

1.2Solr是什么

1.2.1信息检索引擎

1.2.2灵活的模式管理

1.2.3JavaWeb应用

1.2.4一台服务器上的多个索引

1.2.5可扩展性(插件)

1.2.6可伸缩性

1.2.7容错性

1.3选择Solr的理由

1.3.1面向软件架构师的Solr

1.3.2面向系统管理员的SoIr

1.3.3面向CEO的Solr

1.4功能概述

1.4.1用户体验功能

1.4.2数据建模功能

1.4.3Solr4的新功能

1.5本章小结

2Solr上手

2.1开始上手

2.1.1Solr的安装

2.1.2启动Solr的示例服务器

2.1.3了解Solr主目录

2.1.4对示例文档进行索引

2.2一切都关乎搜索

2.2.1Solr查询表单详解

2.2.2Solr的搜索返回机制

2.2.3排名检索

2.2.4分页和排序

2.2.5扩展的搜索功能

2.3Solr管理控制台一览

2.4根据需求改造搜索示例服务器

2.5本章小结

3Solr基础理论

3.1搜索、匹配与找寻内容

3.1.1何为文档

3.1.2基本搜索问题

3.1.3倒排索引

3.1.4词项、短语与布尔逻辑

3.1.5找到文档集

3.1.6短语查询与术语位置

3.1.7模糊匹配

3.1.8快速小结

3.2相关度

3.2.1默认相似度

3.2.2词项频次

3.2.3反向文档频次

3.2.4词项权重

3.2.5规范化因子

3.3查准率查全率

3.3.1查准率

3.3.2查全率

3.3.3达到平衡

3.4搜索的规模化

3.4.1非规范化文档

3.4.2分布式搜索

3.4.3集群vs.服务器

3.4.4Solr的局限

3.5本章小结

4配置solr

4.1solrconfig.xml文件概览

4.1.1常见的XML数据结构和数据类型元素

4.1.2配置文件更新的应用

4.1.3Solr的其他配置

4.2查询请求处理

4.2.1请求处理简介

4.2.2搜索处理器

4.2.3Solritas的browse请求处理器示例

4.2.4利用搜索组件扩展查询处理

4.3管理搜索器

4.3.1新建搜索器

4.3.2新搜索器预热

4.4缓存管理

4.4.1缓存原理

4.4.2过滤器缓存

4.4.3查询结果缓存

4.4.4文档缓存

4.4.5字段值缓存

4.5其他配置选项

4.6本章小结

5创建索引

5.1微博搜索应用示例

5.1.1面向搜索的内容表示

5.1.2Solr索引构建概览

5.2设计自己的schema

5.2.1文档粒度

5.2.3索引字段

5.2.4存储字段

5.2.5schema.xml概览

5.3在schema.xml中定义字段

5.3.1必备字段属性

5.3.2多值字段

5.3.3动态字段

5.3.4复制字段

5.3.5……键字段

5.4结构化非文本字段类型

5.4.1字符串字段

5.4.2日期字段

5.4.3数值字段

5.4.4高级字段类型属性

5.5发送文档到Solr进行索引

5.5.1使用XMLJSON进行文档索引

5.5.2使用SolrJ客户端库添加文档索引

5.5.3向Solr导入文档的其他工具

5.6更新处理器

5.6.1将文档提交到索引

5.6.2事务日志

5.6.3原子更新

5.7索引管理

5.7.1索引存储

5.7.2索引片段合并

5.8本章小结

6文本分析

6.1微博文本分析

6.2基础文本分析

6.2.1分析器

6.2.2分词器

6.2.3分词过滤器

6.2.4StandardTokenizer

6.2.5使用StopFilterFactory移除停用词

6.2.6使用LowerCaseFilterFactory对词项进行小写转换

6.2.7通过Solr分析表单进行文本分析测试

6.3为微博文本自定义一个字段类型

6.3.1使用PatternReplaceCharFilterFactory折叠重复的字母

6.3.2保留主题标签、提及符号和连字符词项

6.3.3使用ASCIIFoldingFilterFactory移除变音符号

6.3.4使用KStemFilterFactory提取词干

6.3.5在查询阶段使用SynonymFilterFactory加入同义词

6.3.6把过滤器组合在一起

6.4高级文本分析

6.4.1高级字段属性

6.4.2各语种文本分析

6.4.3使用Solr插件扩展文本分析

6.5本章小结

……

第2部分Solr的核心功能

第3部分Solr进阶

我来评分 :6
0

转载注明:转自5lulu技术库

本站遵循:署名-非商业性使用-禁止演绎 3.0 共享协议