欢迎光临
我们一直在努力

百度蜘蛛是怎样判断网页是否更新的

页面修改时间确实是一个重要参数。
通常情况下,http状态码返回有以下几个常用的:
1、200   0   0 表示蜘蛛对服务器发出了请求,服务器对请求进行了处理,蜘蛛从服务器上抓取了数据。
2、200   0   64 表示蜘蛛对服务器发出了请求,服务器对请求进行了处理,但是蜘蛛没有从服务器抓取数据。
3、304   0   0   表示蜘蛛来访,服务器告诉蜘蛛,该文件没有进行更新,不需要重新抓取数据。

分析如下:
1、200   0   0 如果是抓取的是最新发布的内容的话,通常情况下,会很快释放(网站权重比较高的情况下),如果抓取的是很早之前发布的数据的话,通常情况下,是正常抓取,但是不会马上释放,在百度有比较大的更新的时候,一次性释放。这就是很多同志们很惊喜的。
2、200   0   64,很多人认为是被K站的前兆,这个可以说基本上和被K站是两回事。这是因为蜘蛛通过对服务器的文件对比,发现服务器的文件和之前抓取的文件内容和大小一样,所以就不再进行数据抓取。这个基本上和K站没任何直接关系。这也就是很多同学在分析日志的时候,经常会发现出现200   0   64状态码的原因。
很多人会问,200   0   64 和304   0   0 都是蜘蛛对服务器进行了访问,都是没有抓取数据,那区别在什么地方呢?这就是在于页面的修改时间。

比如说,我网站的首页是静态生成的,12月16日中午12点,进行了数据更新,重新生成了首页。baiduspider在12月16日12点以后进行访问,对新生成的首页进行了抓取,返回的http状态码就是200   0   0 .   如果之后我没有再对首页文件进行更新,baiduspider再进行访问的时候,根据更新时间,服务器会直接返回304   0   0 状态码,baiduspider不再对文件进行访问和抓取。如果说我在12月16日以后,我没再更新过内容,没再发布过文章,但是重新生成了首页,baiduspider再次访问的时候,发现首页文件的更新时间发生了改变,于是对首页文件重新进行分析,得出了首页文件没有更新的结论,于是不再进行数据抓取,返回200   0   64 状态码。
 

赞(0) 打赏
未经允许不得转载:优友网 » 百度蜘蛛是怎样判断网页是否更新的
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

大前端WP主题 更专业 更方便

联系我们联系我们

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏