有一些作弊技术很容易被发现,例如使用刷新元标记的自动改变加载页面技术。但是使用脚本的自动改变加载页面非常难被发现,因为搜索引擎爬虫不会执行脚本。对于掩饰技术,网络爬虫会把自己伪装成普通浏览器来防止。
使用指向页面的锚文本的词索引页面能够在一定程度上避免内容作弊,因为在其他页面上的锚文本更加可信。这技术本身是为了索引那些不被网络爬虫发现的页面而提出的,现在是搜索引擎中的常用技术,例如:搜索引擎给锚文本中的词更高的权值。实际上,在锚文本周围的词同样提供了对于目标页面的编辑上的判断。网站优化,网络营销,网站设计
而对于内容作弊,页面描述算法同样有抵制的作用,因为算法本身是基于指向目标页面的链接的,同时指向目标页面的页面需要具有一定知名度或者有一个高排名分数。但是,却没有办法处理前面讨论的链接作弊技术。
相比分别抵制不同类型的作弊,有一种称为信任排名(TrustRank)的技术被提出,能够同时防止所有的作弊技术。这种技术利用知名度网页和非垃圾网页聚集的特点,例如:在网络上,有一定知名度的网页通常很少指向垃圾网页,但垃圾网页通常指向很多有知名度的网页(试图增加自己的中心程度分数)。链接分析方法被用作区分知名度网页和任何形式的垃圾网页,而不是处理单个的作弊技术。
抵制作弊也被认为是一个分类技术,例如:预测一个网页是否是垃圾网页。可以使用指导性的学习算法训练一个垃圾分类器,主要问题在于涉及学习的特点。
1.页面中单词的数目:一个垃圾页面倾向比非垃圾页面包含更多的单词,从而希望能够包含多数流行词。
2.平均单词长度:在英语中平均单词的长度是5个字母,人造内容的平均单词长度通常不同。
3.页面标题中的单词数目:由于搜索引擎通常给页面标题中的单词更多的权值,所以作弊器通常在页面标题中添加更多的关键词。
4.可见内容部分:垃圾页面通常使垃圾项对用户不可见。
但是,有一些作弊技术还是很难被发现,抵制网络作弊是一个不断研究,不断进行的过程,一旦搜索引擎能够探测到一些作弊手段,研究搜索引擎的人就会发明更多的作弊技术。