pdf下载《搜索引擎 信息检索实践》9787111288084

《搜索引擎 信息检索实践》

 

 

本书综述了信息检索中的重要问题,并介绍了这些问题如何对搜索引擎的设计与实现产生影响。本书并不是按照相同的详细程度描述每个主题,相反,我们侧重于那些对于实现搜索引擎组件以及组件背后的信息检索模型最重要的部分。网络搜索引擎显然是一个重要的话题,我们主要覆盖了在网络上使用的搜索技术,但搜索引擎在其他场合中也有应用,这就是为什么我们重点强调各种搜索引擎背后的信息检索理论与概念的原因。
本书的目标读者群主要是计算机科学或计算机工程的本科生,但研究生也会发现本书是有用的,此外,本书也适合多数情报科学专业的学生。最后,无论读者是什么背景,通过阅读本书都可以对他们动手开发搜索引擎有所帮助。本书中涉及数学知识,但并不深奥。书中也有代码和程序设计的练习,但对于那些已经完成了基本计算机科学与程序设计课程的人来说,完全可以掌握。
每章末尾的练习使用了被称为Galago的基于Java的开源搜索引擎。Galago既是为本书所设计的,也借鉴了Lemur和Indri项目的经验。换句话说,这是一个功能齐全的能够支持真正应用的搜索引擎。许多编程练习都是针对Galago组件的使用、修改和扩展。

第1章 搜索引擎和信息检索
1.1 什么是信息检索
1.2 重要问题
1.3 搜索引擎
1.4 搜索工程师
参考文献和深入阅读
练习
第2章 搜索引擎的架构
2.1什么是软件架构
2.2 基本的构件
2.3 组件及其功能
2.3.1 文本采集
2.3.2 文本转换
2.3.3 索引的创建
2.3.4 用户交互
2.3.5 排序
2.3.6 评价
2.4 搜索引擎是如何工作的
参考文献和深入阅读
练习
第3章 信息采集和信息源
3.1 确定搜索的内容
3.2 网络信息爬取
3.2.1 抓取网页
3.2.2 网络爬虫
3.2.3 时新性
3.2.4 面向主题的信息采集
3.2.5 深层网络
3.2.6 网站地图
3.2.7 分布式信息采集
3.3 文档和电子邮件的信息采集

仅供学习

本文链接:https://www.wodfd.com/1587.html

备用下载链接:https://www.wodfd.com/1225.html