Baiduspider与死链的爱恨情仇

  • A+
所属分类:学习SEO
广告也精彩

Baiduspider与死链的爱恨情仇:死链直接关系到网站的抓取收录和流量转化,因而对站长们而言及时清理提交死链是至关重要的。百度蜘蛛对于站长来说可谓上宾,可是我们判断疯狂抓我们网站内容的蜘蛛是不是百度的?

Baiduspider与死链的爱恨情仇

我们可以通过DNS反查IP的方式判断spider是否来自百度。根据平台不同验证方法各不相同,如linux/windows/os三种平台下的验证方法分别如下:

1、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

2、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

3、 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

已被百度抓取的死链我们该怎么办?

最快最有效的方法是通过百度站长平台死链提交工具(地址:http://zhanzhang.baidu.com/badlink/)进行处理,提交方式有两种,一种是规则提交,一种是死链文件提交。提交之后,spider为了验证链接是否真的死掉,需要抓一部分回来验证,所以spider不会立即停止对死链接的抓取。

如果你网站死链特别多,而且既没有没有设置robots屏蔽,也没有向百度提交的话,可能会占用你网站大量正常链接抓取配额,导致正常内容无法抓取收录,对我们的站点还是有影响的。

目前百度支持协议死链、内容死链和跳转死链,其中最效果最好的是协议死链。

百度标准死链官方文档:

第一,协议死链:协议死链是指通过HTTP协议状态码明确表示网页已无阅读价值。HTTP协议状态码很多,但百度协议死链首推404,即未找到文件。请尽量不要用其它状态码来代表死链。

第二,内容死链:内容死链主要是由网站自身变化引起的,网页可以正常打开未发生跳转,但页面内容对爬虫来说没有收录价值,对用户来说也没有参考价值,如帖子被删除、内容已转移、空间被关闭、信息已过期、交易已关闭等。在这样没有价值信息的网页上,网站应该在明显位置直接给予提示文字,如:

·页面不存在(网页不存在)

·内容已转移

·帖子已删除

·域名过期或出售

·空间被关闭

·网站要备案

·信息已过期

·交易已关闭

第三,跳转死链:跳转死链是指网站将无阅读价值的页面统一跳转到某一个页面,如前一级目录面、首页等等,跳转前后的两个网页主体内容不同,不存在可替代的关系。

目前我们可以通过站长工具中的死链分析功能(地址:http://zhanzhang.baidu.com/inbound/deadlink),还有抓取异常工具(地址:http://zhanzhang.baidu.com/crawl/index)进行发现分析发现死链,当然也可以通过网站日志进行分析,还有一些第三方的工具还是很不错的。

来源:seowhy,作者:天生柚稚笨

收费QQ群
  • 转载请注明来源:徐公平SEO博客,原文链接:http://www.xugongping.com/seo/5257.html
  • 博主声明:博客内容除标记原创字样以外内容,均来自网络转载,版权归原作者所有,如涉及版权问题请及时联系处理。
广告也精彩

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: