华企电商(www.nchq.cc)网站权重研究系列文章之四:网页质量间接测度指标。网页质量、网站权重在SEO眼里是优化的基础,一个缺乏基础的网站,很难得到搜索引擎的重视。如何提升用户以及搜索引擎对一个网站的评价,是重要的优化目标。相关系列文章:
1.网页质量
2.结合网页质量分析的搜索模式
3.网页质量直接测度指标
1.基于网页名誉度的评价指标
部分搜索引擎技术研究人员利用网页所在网站的名誉度(reputation)来评价网页质量。从概念上看,名誉度是指一种有助于别人判断是否可以投资或者保护的重要个人资产。在一定程度上,可以将其看成质量的期望(expectation 0f quality)。因为具有较高名誉度的客体通常有助于提升别人与其进行交流的可能。一个网站的名誉度类似于一个组织或者个人的名誉度。它需要相应主体真实的先期展示,并通过在提供诸如排名等服务的第三方组织评价中得以表达。即便是人们无法知道这个网站的名誉度,也会在看到网站的一瞬间,通过对其可视化内容的大致扫描,对其名誉度做出自己的判断,以决定离开还是继续浏览。也有的搜索引擎技术研究人员从多维分析的角度,给出了网页名誉度多维测度方法以间接测量网页的质量,这些多维指标包含可信度(trust)、权威性(authority)、内容相关性(aboutness)、再次访问的可能性(revisit)、可推荐程度(recommend)、可等级化(ranked)。网站建设,企业官网,建设网站
2.基于网站权威性的评价指标
有的搜索引擎技术研究人员声称网站的权威性(authority)在一定程度上直接影响着网站内容的质量,这种权威性来自于两个方面:一个是专业能力;另一个是可信度。除此以外,有很多评价网络信息的服务站点通常会强调网站内容的名誉度,具体指标包括相关度(relevance)、信息可靠性(reliability)、权威性(authority)、内容质量(quality of content)、可用性(usability)和客观性(objectivity)等。近年来,诸如全球信息基础设施裁定组织(Global Information Infrastruc.ture Award)等一些机构的排名服务也开始涉足网站质量的评价,包括对作者资质等情况的评价。
3.基于用户相关度反馈信息的评价指标
搜索过程主要由用户发出查询开始,检查返回的命中结果,并选择其中的一部分内容做进一步的浏览,这既可以通过当前检索结果页面上的链接来进行,也可以通过在打开的命中网页中继续点击浏览。这些在搜索时选中并浏览的网页序列构成了用户检索点击流,它可以作为测量用户相关度反馈的信息源,被称为用户相关度反馈信息。从定义上看,相关度反馈主要是指检索用户可以向检索系统提供自己是否更喜欢某网页的过程,从而间接反映查询的相关度。它不仅可以改善当前用户的搜索体验,还可以提高所有检索用户的搜索质量。例如,可以提升被访问次数多的网页权重等,而且也可以作为相关网页质量的评价指标。
信息检索系统收集用户相关度反馈信息的方式主要有两种:一种是显式的方法,它要求用户在检索时主动地对和查询相关的文档做标记,这种方式虽然效果明显,但是会增加用户使用负担,一般的用户很难愿意配合这种信息收集行为;另一种是隐式的方法,它一般无需用户主动提交,通过探测用户行为,并以此来间接评价结果文档的相关度。它建立在一个假设基础之上,那就是用户在检索时会持续地进行隐式的结果相关性判断。从理论上看,利用隐式方法得到的信息并不十分准确,从被观察的检索活动到相关度的判断过程都有可能存在潜在的误差,这显然会导致将更多的不相关文档标记为相关文档。但是,隐式方式也具有显式方法不可比拟的优点,如不增大用户使用负担。事实上,由于需要用户主动提交,显式方法所收集的信息相当有限。相比之下,利用隐式方法收集而来的信息更多,也更为详细,而且即便是存在误差,只要收集到足够多的数据样本,通过一些数据分析方法就可以很好地去除那些噪声数据。
研究者已经提出了很多可以用于隐式收集相关度反馈信息的途径,如在搜索结果文档列表中点击选择某些文档的行为、在网页文本中的翻滚行为对网页做书签的行为、打印网页的行为和浏览网页所花费的时间。其中,有些指标也存在一定的争议。例如,有的搜索引擎技术研究人员就认为,浏览每个网页所花费的时间并不能有效代表用户对这个网页相关度的认可程度;甚至有些搜索引擎技术研究人员认为,浏览网页所花费的时间根本就是一个不可靠的相关度反馈测量指标,主要原因在于存在一些和相关度没有关系的因素于扰,如任务本身、文档集合特点和检索环境等都会影响浏览时间。
其他搜索引擎技术研究人员也提出了综合的方法来改善隐式方法的分析效果如同时考虑浏览时间、是否打印网页和保存网页、翻滚网页和保存书签等用户行为将能取得更好的效果。还有搜索引擎技术研究人员认为,在非试验环境下,将用户在查询时发出的点击数与用户和检索系统交互的全部时间结合起来,可以有效地揣度用户对网页文档的满意度。但是,从总体来看,相关试验的效果并不是十分理想,即便是可行,但是相关数据的收集工作却较难展开,甚至无法得到较为丰富的数据。因此,点击流数据就称为一种较好的隐式分析数据源,它在非试验环境下易于收集,而且比其他几种用于隐式收集相关度反馈信息的数据更为准确。它建立在一个假设之上,那就是被点击的文档应该比没有被点击的文档更为相关很多搜索引擎技术研究人员在这方面做了研究,如使用点击数据来训练检索算法,按照用户点击数量来对检索结果重排序,也有搜索引擎技术研究人员从被点击文档中提取候选词语来对查询进行扩展以提高检索精度。
从理论上看,利用点击流进行分析是一种协同过滤技术。当利用相关度反馈信息服务所有检索用户时,原先检索用户认为的相关文档就会被认为与其他用户相关。如果这些用户具有相同的查询需求,则这种相关度反馈就会提高检索效果。但是点击流分析技术和一般的协同过滤技术也存在不同,主要在于一般的协同过滤技术主要是面向那些具有相对稳定兴趣的用户群体,所以便于基于他们先前的兴趣来预测可能的兴趣,而作为信息检索用户,他们每一次键入的查询都可能具有完全不一样的语义。
在这方面的很多先前研究工作都往往集中于对搜索结果网页中文档的点击情况进行分析,而缺乏对每个用户整个搜索过程所涉及的全部文档进行分析。有搜索引擎技术研究人员通过人工评价试验发现,在搜索过程中产生的所有相关度反馈信息都可以有效地提高进一步查询的精度和可信度,所以从用户搜索过程中的全部网页信息中提炼点击流数据将是有效提高相关度反馈精准度的方法.