您的位置:老鐵SEO > 站長新聞 > SEO >

怎么識別Baiduspider的真假?

文章來源:未知

作者:老鐵SEO

人氣:16

2019-10-08

我們在根據網站日志分析搜索引擎蜘蛛抓取網頁的記錄時,實際上很多站點都是有一些偽裝稱baiduspider的到訪者的。這些數據會嚴重影響我們對日志分析后的判斷。

這些到訪者,為什么會偽裝為baiduspider來訪問我們的網站呢?最典型的就是采集你內容的那些人。他們知道很多工具是能夠看到哪些ip訪問網站的量過大的。例如某一個ip今天訪問你網站1萬次,那正常嗎?肯定是不正常的。但他要是baiduspdier呢?呵呵,那就正常了。

我們應該如何識別baiduspider的真假呢?

百度pc端的爬蟲UA是這樣的:

  • Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
  • Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

百度移動端的爬蟲UA是這樣的:

  • Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
  • Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

如上是包含了百度的常規爬蟲,和渲染爬蟲render的。這兩個爬蟲的區別符已經用紅色字體標出來了。

區分百度pc和移動端的爬蟲

  • 通過關鍵詞“Android”或者“Mobile”來進行識別,判斷為移動訪問或者抓取。
  • 通過關鍵詞“Baiduspider/2.0”、“Baiduspider-render/2.0”,判斷為百度爬蟲。

然而,你以為這樣就能很好的識別了嗎?采集者要是偽裝成和上面一樣的UA信息(什么事UA,可參考文章:教你如何查看IIS日志)怎么辦呢?

這個時候我們就要用到ip地址了,每一次訪問在日志中都記錄了訪客的ip地址,我們可以判斷ip是不是真的baiduspider,方法如下:

windows電腦反查ip,判斷爬蟲真偽:

點擊“開始”菜單,-> 點擊“運行”按鈕,-> 然后彈出cmd窗口。輸入“nslookup 要查詢的ip地址”,點擊回車鍵,會有結果輸出出來。判斷是否來自Baiduspider的抓取?;剀嚭蟮慕Y果如果包含x x.baidu.com 或x x.baidu.jp 這兩種格式,就說明是真的baiduspider。下面是示例:

baiduspider真偽反查ip示例

如上圖中,我執行命令,返回的結果中,最后綠色框中的內容就包含的xx.baidu.com,所以是真的爬蟲,如果不是這樣的就不是真的baiduspider。

liunx系統反查ip,判斷爬蟲真偽:

liunx系統驗證爬蟲的邏輯與windows沒有什么區別,只是查詢的方式不同。畢竟系統不一樣了。這里我直接給一個示例:

liunx查詢baiduspider真偽示例

如上圖,liunx使用的命令是“host 要查詢的ip地址”,其判斷邏輯與windows系統一樣。

好了,今天的文章分享到這里。趕緊去拿你的日志看看哪些訪客是偽裝的爬蟲吧,今早把他們屏蔽掉。

相關文章

在線客服

外鏈咨詢

掃碼加我微信

微信:juxia_com

返回頂部

肉动漫无码纯肉高H免费,又黄又爽的视频合集,av日韩动漫精品一区二区,欧美性强迫XXXX