您的位置:老鐵SEO > 站長新聞 > SEO >

怎么屏蔽百度蜘蛛(Baiduspider)抓取網站

文章來源:未知

作者:老鐵SEO

人氣:17

2019-10-08

百度蜘蛛抓取我們的網站是希望將我們的網頁收錄到它的搜索引擎里,未來當用戶搜索時,能為我們帶來一定的SEO流量。當然我們并不是希望搜索引擎什么都抓取。

所以,這時我們只希望我們希望在搜索引擎被搜索到的內容進行抓取。像用戶隱私、后臺信息等都不希望搜索引擎被抓取和收錄。解決這樣的問題最好的方式有兩種,如下:

robots協議文件屏蔽百度蜘蛛抓取

robots協議是一個放在網站根目錄下協議文件,可以通過URL地址:http://你的域名/robots.txt進行訪問。當百度蜘蛛抓取我們網站時,會先訪問這個文件。因為里面告訴了蜘蛛哪些可以抓取,哪些不可以抓取。

robots協議文件的設置比較簡單,可以通過User-Agent、Disallow、Allow這三個參數進行設置。

  • User-Agent:對不同搜索引擎的聲明;
  • Disallow:不允許抓取的目錄或頁面;
  • Allow:允許抓取的目錄或頁面,一般可以省略不寫,因為你不寫什么是不可以抓的那就都是可以抓的;

下面我們來看一個示例,場景是我不希望百度抓取我網站所有的css文件,data目錄、seo-tag.html頁面

User-Agent: Baidusppider
Disallow: /*.css
Disallow: /data/
Disallow: /seo/seo-tag.html

如上,user-agent聲明的蜘蛛名稱,這個意思也就是說,針對百度蜘蛛。下面不能抓取”/*.css”,首先前面的/指的是根目錄,也就是你的域名。*是通配符,代表任意內容。其意思就是所有文件,以.css結尾的都不能抓取。下面兩個你自己體會吧。邏輯是一樣的。

如果你想檢測自己最后設置的robots文件對不對,可以訪問這篇文章《檢查robots是否正確的工具介紹》,有詳細的工具能夠檢測你的設置。

通過403狀態碼,限制內容輸出,屏蔽蜘蛛抓取。

403狀態碼,是http協議中一個網頁返回狀態碼。當搜索引擎碰到403狀態碼時,就知道這類頁面是又權限限制的。我是不能訪問的。例如需要登錄才能查看的內容,搜索引擎本身是不會登錄的,那么你返回403的同時,他也知道了這都是權限設置頁面,無法讀取內容。自然也就不會收錄。

返回403狀態碼的同時,應該有一個類似404頁面的頁面。提示用戶或者蜘蛛這類頁面想要做什么才能訪問。兩者缺一不可。你只有提示頁面,狀態碼返回200,那對于百度蜘蛛就是大量的重復頁面了。有403狀態碼但返回不同的內容。這也不是很友好。

最后針對robot協議,還想再補充一點:“現在搜索引擎會通過你網頁的排版、布局來識別你網頁的體驗友好度,如果屏蔽了css文件、布局相關的js文件的抓取,那么搜索引擎就不知道你的網頁布局是好是壞了。所以不建議屏蔽這些內容不讓蜘蛛抓取”。

好了,今天的分享就到這里,希望能夠對你有所幫助,當然如上的兩個設置除了針對百度蜘蛛外,對所有的蜘蛛都有效果的。設置時請謹慎。

相關文章

在線客服

外鏈咨詢

掃碼加我微信

微信:juxia_com

返回頂部

肉动漫无码纯肉高H免费,又黄又爽的视频合集,av日韩动漫精品一区二区,欧美性强迫XXXX