蜘蛛返回代码的灵感

来源:未知 浏览 167次 时间 2021-05-22 22:06

当百度搜寻器进行爬行和处理时它会根据http协议规范设置相应的逻辑。因此网站管理员还应该尝试参考http协议中返回代码含义的定义。

百度蜘蛛对常用的http返回码的处理逻辑是这样的:
1,404
   404返回代码表示“未找到”网站页面优化网站管理员还应该尝试参考http协议中返回代码含义的定义。

百度蜘蛛对常用的http返回码的处理逻辑是这样的:
1,404
   404返回代码表示“未找到”百度会认为网页已过期通常会从搜索结果中删除蜘蛛短期内不会再找到该网址。

2,503
   503返回码的含义是“服务不可用”百度会认为该页面暂时无法访问通常网站暂时关闭带宽有限。对于返回503的网页百度蜘蛛不会直接删除此网址并会在短期内再次访问该网址。如果网页已恢复则会正常抓取;如果它继续返回503短期内将被访问几次。但是如果网页长时间返回503则该网址仍会被百度视为断开链接并将从搜索结果中删除。

3,440
   403返回码表示“禁止”百度会认为该网页目前被阻止。对于这种情况如果它是一个新发现的网址百度蜘蛛将暂时不会抓取它并会在短期内再次检查它;如果百度已经包含了网址则不会直接删除并且会在短期内再次访问。如果页面允许访问则会正常爬网;如果仍然不允许访问将在短期内多次访问。但是如果网页长时间返回403百度也会认为它是一个断开的链接并将其从搜索结果中删除。  

4,301
   301返回码的含义是“永久移动”百度会认为该页面当前跳转到新网址。当遇到站点迁移域名替换和站点修订时建议使用301返回码来最小化修订导致的流量损失。虽然百度蜘蛛现在有301个跳跃的更长响应时间但我们仍然建议每个人都这样做。

  我们的建议
1.如果网站暂时关闭当网页无法打开时请勿立即返回404。建议使用503状态。 503可以告诉百度蜘蛛该页面暂时无法访问请稍后再试。

2.如果百度蜘蛛在你的网站上承受太大压力请尽量不要使用404.建议回到503.所以百度蜘蛛会在一段时间后尝试抓住这个链接如果该网站闲置在那个时候它将被成功抓取。

3.有些网站希望百度只会包含一些内容例如审核后的内容累积了一段时间的新用户页面等。在这种情况下建议将新发送的内容临时返回403并在返回审计或处理后返回正常返回码。

4.迁移站点或更改域名后请使用301返回码。  
 

标签: 蜘蛛返回码的启示软文课堂