随着时代的发展,网络早已融入我们的生活,搜索引擎让信息的查找和获取变得简单而精确,那么,其是如何检索信息的呢?
搜索引擎的工作过程大体分为四个步骤:爬行和抓取、建立索引、搜索词处理、展示排名,人们日常使用搜索引擎查找资料的过程只是搜索引擎工作过程中的一个环节。首先,搜索引擎会向万维网派出一个能够发现新网页并抓取网页文件的程序,这个程序通常被称为蜘蛛(Spider)。其在工作的时候从网站的某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的页面都抓取完为止。如果把整个互联网当做一张大网,那么这个程序就像是蜘蛛一样抓取所有的网页内容。在蜘蛛程序抓取了网页文件之后,通过对网页内容的分析和处理,对网页信息进行提取并组织建立索引库,即建立一定的搜索原则,也就是说当用户查找某一关键词时,搜索引擎能根据关键词在数据库中进行查找和搜索,找到相应的位置。
当搜索引擎对网络数据建立了数据库之后,接下来就是用户使用阶段了,当用户在搜索栏输入搜索词,单击“搜索”按钮后,搜索引擎即对输入的搜索词进行处理,以提取出相应的关键词,通过关键词在数据库中进行索引和查找,实际的应用中,搜索词的处理是十分快速的。
当搜索引擎根据搜索词找到相关的网页之后,接下来就遇到了一个问题,究竟把哪一个网页的链接呈现在前面,哪些链接放在后面呢?这就涉及到搜索引擎工作的最后一步——展示排名。在众多网页中,搜索引擎会根据算法计算得出,一个网站所提供信息的有效性,原创性和信息的认可度等指标,结合网站自身权重等综合算法给出相应的排名显示,同样的,会将一些质量较低的垃圾网站进行过滤,以提高用户检索的有效性。
在信息“爆炸”的时代,搜索引擎带给我们的是快速精准的信息查找方式,这大大节省了人们获取知识的时间,提高人们的生产效率,相信随着技术的发展,搜索引擎在未来必定发挥更大的作用。
本文由北京邮电大学计算机科学与技术研究专业副教授张忠宝进行科学性把关。