关键词的提取大部分的网站以HTML格式存在,对于索引来说,只需要处理文本信息。因此需要把网页中内容提取出来,再过滤一些脚本如JS等以广告形式存在的内容,同时记录文本的版面格式信息,网页处理主要包括4个方面:关键词的提取,重复,转载的消