Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。虽然Web挖掘使用了许多数据挖掘技术,但它并不仅仅是传统数据挖掘的一个简单应用。在过去20年中,许多新的挖掘任务和算法被相继发明。依据在挖掘过程中使用的数据类别,Web挖掘任务可以被划分为三种主要类型:Web结构挖掘、Web内容挖掘和Web使用挖掘。
Web结构挖掘:Web结构挖掘从表征Web结构的超链接(简称链接)中寻找有用的知识。例如:从这些链接中,我们可以找出哪些是重要的网页,这是一项搜索引擎采用的重要技术。我们也可以发掘具有共同兴趣的用户社区。这些任务在传统的数据挖掘中并不存在,因为在关系型表格中并没有链接结构。
Web内容挖掘:Web内容挖掘从网页内容中抽取有用的信息和知识。例如:根据网页的主题,我们可以进行自动的聚类和分类。虽然这些任务与传统数据挖掘的任务相似,但是我们依然可以为了各种不同的目的从网页中根据模式抽取有用的信息,例如商品描述、论坛回帖等。而这些信息可以被用作进一步分析来挖掘用户态度。这些任务也不是传统的数据挖掘任务。
Web使用挖掘:Web使用挖掘从记录每位用户点击情况的使用日志中挖掘用户的访问模式。这项任务也使用了许多数据挖掘的算法。其中一项重要的议题是点击流数据的预处理,以便生成可以用来挖掘的合适数据。
搜索引擎优化研究是与WEB数据挖掘比较相关的一门技术,因为网页制作大部分的搜索引擎工程师在思考如何设计搜索引擎的时候,同时也会注重或者很大一部分是要解决搜索结果排序公正的问题。