百度spider与死链的爱恨情仇:死链直接关系到网站的抓取收录和流量转化,因而对站长们而言及时清理提交死链是至关重要的。百度蜘蛛对于站长来说可谓上宾,可是我们判断疯狂抓我们网站内容的蜘蛛是不是百度的?
我们可以通过DNS反查IP的方式判断spider是否来自百度。根据平台不同验证方法各不相同,如linux/windows/os三种平台下的验证方法分别如下:
1、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
2、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
3、 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
已被百度抓取的死链我们该怎么办?
最快最有效的方法是通过百度站长平台死链提交工具(地址:http://zhanzhang.baidu.com/badlink/)进行处理,提交方式有两种,一种是规则提交,一种是死链文件提交。提交之后,spider为了验证链接是否真的死掉,需要抓一部分回来验证,所以spider不会立即停止对死链接的抓取。
如果你网站死链特别多,而且既没有没有设置robots屏蔽,也没有向百度提交的话,可能会占用你网站大量正常链接抓取配额,导致正常内容无法抓取收录,对我们的站点还是有影响的。
目前百度支持协议死链、内容死链和跳转死链,其中最效果最好的是协议死链。
百度标准死链官方文档:
第一,协议死链:协议死链是指通过HTTP协议状态码明确表示网页已无阅读价值。HTTP协议状态码很多,但百度协议死链首推404,即未找到文件。请尽量不要用其它状态码来代表死链。
第二,内容死链:内容死链主要是由网站自身变化引起的,网页可以正常打开未发生跳转,但页面内容对爬虫来说没有收录价值,对用户来说也没有参考价值,如帖子被删除、内容已转移、空间被关闭、信息已过期、交易已关闭等。在这样没有价值信息的网页上,网站应该在明显位置直接给予提示文字,如:
·页面不存在(网页不存在)
·内容已转移
·帖子已删除
·域名过期或出售
·空间被关闭
·网站要备案
·信息已过期
·交易已关闭
第三,跳转死链:跳转死链是指网站将无阅读价值的页面统一跳转到某一个页面,如前一级目录面、首页等等,跳转前后的两个网页主体内容不同,不存在可替代的关系。