一、引擎结构
搜索引擎基本结构一般包括:搜索器、索引器、检索器、用户接口等四个功能模块。
1)搜索器,也叫网络蜘蛛,是搜索引擎用来爬行和抓取网页的一个自动程序,在系统后台不停歇地在互联网各个节点爬行,在爬行过程中尽可能快的发现和抓取网页。
2)索引器。它的主要功能是理解搜索器所采集的网页信息,并从中抽取索引项。
3)检索器。其功能是快速查找文档,进行文档与查询的相关度评价,对要输出的结果进行排序。
4)用户接口。它为用户提供可视化的查询输入和结果输出的界面。
二、分类
1、全文搜索引擎
全文搜索引擎一般都有一种叫作“网络机器人”或“网络蜘蛛”的软件,这些软件能遍历WEB空间,扫描一定IP范
搜索引擎原理
围内的网站,并延着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。为了保持网页资料的最新,它还会回访已抓取的网页。对已经抓取到的网页,搜索引擎还会用一定的程序进行分析,根据一定的相关度算法建立网页索引,添加到索引数据库中。全文搜索引擎因为依靠软件进行采集网页,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确。我们平时看到的全文搜索引擎,实际上是只是一个搜索引擎的搜索界面。当我们输入关键字进行查询时,搜索引擎便会从大的索引数据库中找到包含该关键字的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库也不同,排名规则也不尽相同,所以当我们以同一关键字在不同的搜索引擎上进行查询时,搜索的结果和排列顺序通常也不相同。
2、分类目录搜索引擎
和全文搜索引擎一样,分类目录搜索引擎的整个工作过程同样也经过收集信息、分析信息和查询信息三部分,只不过分类目录搜索引擎的前两部分,收集信息和分析信息全部由人工来完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。
3、元搜索引擎
这类搜索引擎一般都没有自己的网页搜索软件以及数据库,它的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以一定的格式在同一界面集中显示。通常元搜索引擎在索引请求提交、检索接口代理和检索接口显示等方面,均有自己开发的具有特色的元搜索技术。在搜索结果上,这些元搜索引擎往往搜索范围更大一些。
4、集成搜索引擎
集成搜索引擎是通过网络技术在一个网页上链接很多个独立的搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询。搜索的结果由各个搜索引擎分别以不同的页面显示。
三、工作原理
搜索引擎的工作原理是从互联网上抓取网页,建立索引数据库,在索引数据库中搜索排序。它的整个工作过程大体分为信息采集、信息分析、信息查询和用户接口四部分。信息采集是网络机器人扫描一定IP地址范围内的网站,通过链接遍历Web空间,来进行采集网页资料,为保证采集的资料最新,网络机器人还会回访已抓取过的网页;信息分析是通过分析程序,从采集的信息中提取索引项,用索引项表示文档并生成文档库的索引表,从而建立索引数据库;信息查询是指用户以关键词查找信息时,搜索引擎会根据用户的查询条件在索引库中快速检索文档,然后对检出的文档与查询条件的相关度进行评价,最后根据相关度对检索结果进行排序并输出。
热门跟贴