在网络信息的查找利用过程中,搜索引擎的检索结果往往过于庞大,搜索引擎用户一般只会浏览前面的一部分结果,例如华企电商曾经做过的关于搜索引擎排名的关注度的调查。具体数据,可以查看:http://www.nchq.cc/.
通过对检索结果进行相关性排序,搜索引擎的目的是将相关的网络信息尽可能地优先显示在搜索结果的前面部分,以改进搜索结果的输出。虽然各个搜索引擎中相关度排序的具体实现各不相同,基本上都采用了基于网站内容的分析方法,即考虑用户所查询的关键词在文档网页中的出现情况,包括关键词频率、关键词位置等因素。这些方法有很大的局限性。一方面,相关度高的页面不一定是受用户普遍欢迎的页面;另一方面,有些网页可能会利用一些优化因素来欺骗搜索引擎,在SEO行业中这种行为,称为:SEOSPAM.目的是提升某关键词的页面的排名位置。网络营销,网络推广,网站设计
事实上,网络中蕴含了丰富的结构信息。页面之间的超链接反映了页面之间的引用关系,页面被其他站点或其他网页引用的次数基本上也反映了该网页的受欢迎程度或重要性。超链接中的链源对链宿页面也起到了概括的作用,这种概括在一定程度上比链宿页面内的概括,如页面的标题、关键字、摘要等更为客观、准确。这也就是为什么使用目标关键字作为链接锚文本,对搜索引擎排名提升的帮助更大的原因。所以,大部分的搜索引擎的算法,都是在致力更加准确的链接分析。
目前比较知名的相关算法是:PageRank和HITS搜索引擎算法。
Web页面权威性(authorrity)可由Web页面链接来反映。Web不仅由页面组成,而且还包含了从一个页面指向另一个页面的超链接。超链接包含了大量潜在的语义,这些信息有助于搜索引擎的的语义分析算法分析出权威性语义。当一个Web页面的作者建立指向另一个页面的链接时,可以看做是作者对另一网页的注解。把对一个页面的来自不同作者的注解收集起来,就可以用来反映该页面的重要性,并可以很自然地用于权威Web页面的发现。因此,大量的Web网页链接信息提供了丰富的关于网页内容相关性、质量和结构方面的信息,可供于搜索引擎算法的研究分析。