网站改版带来的404抓取错误解决实践 |
时间: 2013/6/8 19:52:30 点击: 4882 |
抓取量的对比,分析改版对于百度蜘蛛的抓取量影响多大。
至于日志分析工作后面的分析工作都是一键式的,具体的分析思路有了之后,我们对照着进行分析,就会找到很多平时我们没有注意到的问题,例如下面出来改版造成的404页面,还有不少的页面也是404错误,我并没有意识到,例如下面的wp-login.php页面就是一个最典型的例子: 404错误抓取页面 2、利用百度站长工具中的死链提交工具进行死链提交 百度站长平台LEE团队说:404状态码代表‘Not Found’,spider更新时会认为该页面已失效,此时呢将在索引库中删除,短期内spider再次发现该url不再会抓取。当然,百度的说法只能作参考,因为分析网站日志发现,2个多星期百度蜘蛛还是来抓取这些错误页面,当然,百度对于404错误页面的指导性操作,还是非常有针对性的。 百度站长平台对404页面的看法 特别是死链提交工具中提交死链sitemap,这一条大家可以根据自身的情况进行死链提交,我这边提交后暂时还没有大的效果,因为大家都知道百度的效果展现周期一般都比较长。 3、利用robots.txt和nofollow标签引导蜘蛛抓取 404错误页面一个最大的坏处就是给蜘蛛带来一些错误的抓取,浪费了蜘蛛抓取资源,举个例子,首先我们要达成这样的一个共识:任何一个网站的蜘蛛抓取访问资源都是有限的,小网站自然要少很多,而大网站就要多很多,要想蜘蛛抓取率更高,抓取的更合理,那么一些错误的链接造成的404错误量就要尽可能的减少。 所以我这里针对网站的这些资源的浪费进行了适当的引导,让蜘蛛抓取我想让他抓的一些页面,对于/wuchenshi/、/gaoxiao/等类
|
上一篇: 百度腾讯干掉起点?先看看写手们咋说 下一篇: 从搜索结果中解读品牌知名度的重要性 |