您的位置:老鐵SEO > 站長新聞 > SEO >

搜索引擎爬蟲的五大抓取策略

文章來源:未知

作者:老鐵SEO

人氣:10

2019-10-08

搜索引擎爬蟲抓取我們的網頁,是實現SEO優化工作的第一步。如果沒有抓取,網站就不會被搜索引擎收錄,那也不會有排名了。所以針對每一個為SEO從業者,抓取是第一步!

實際上,大多數SEO從業者知道的搜索引擎抓取算法只有深度優先和寬度優先抓取兩個策略。但實際不然,爬蟲抓取的網頁的策略有6個。再分享這6個策略之前,你務必,一定需要先看一下搜索引擎爬蟲的工作流程,否則下面你可能會不太明白。

爬蟲的寬度優先抓取策略

寬度優先抓取策略,一個歷史悠久且一直被關注的抓取策略,從搜索引擎爬蟲誕生至今一直被使用的抓取策略,甚至很多新的策略也是通過這個作為基準的。

寬度優先抓取策略是通過待抓取URL列表為基準進行抓取,發現的新鏈接,且判斷為未抓取過的基本就直接存放到待抓取URL列表的末尾,等待抓取。

寬度優先抓取策略圖解

如上圖,我們假設爬蟲的待抓取URL列表中,只有A,爬蟲從A網頁開始抓取,從A中提取了B、C、D網頁,于是將B、C、D放入到抓取隊列,再依次獲得E、F、G、H、I網頁并插入到待抓取的URL列表中,以此類推,周而復始。

爬蟲的深度優先抓取策略

深度優先抓取的策略是爬蟲會從待抓取列表中抓取第一個URL,然后沿著這個URL持續抓取這個頁面的其他URL,直到處理完這個線路后,再從待抓取的列表中,抓取第二個,以此類推。下面給了一個圖解。

爬蟲的深度優先抓取策略圖解

A作為第一個從待抓取列表的URL,爬蟲開始抓取,然后抓取到B、C、D、E、F,但B、C、D中都沒有后續的鏈接了(這里也是會去掉已經抓取過的頁面),從E中發現了H,順著H,發現了I,然后就沒有更多了。在F中發現了G,然后針對這個鏈接的抓取就結束了。從待抓取列表中,拿到下一個鏈接繼續上述操作。

爬蟲的非完全PageRank抓取策略

相信PageRank算法很多人都知道,我們SEO的大白話理解就是鏈接傳遞權重的算法。而如果應用在爬蟲抓取上,是怎樣的邏輯呢?首先爬蟲的目的是去下載網頁,與此同時爬蟲不能看到所有的網頁指向某一網頁的鏈接,所以在抓取的過程中,爬蟲是無法計算全部網頁的pagerank的,就導致了在抓取過程中計算的pagerank不是太靠譜。

那非完全pagerank抓取策略,就是基于在爬蟲不能看到所有網頁指向某一網頁的鏈接,而只能看到部分的情況,還要進行pagerank的計算結果。

它的具體策略就是對已經下載了的網頁,加上待抓取的URL列表里的網頁一起,形成一個匯總。在這個匯總內進行pagerank的計算。在計算完成后,待抓取的url列表里的每一個url都會得到一個pagerank值,然后按照這個值進行倒序排列。先抓取pagerank分值最高的,然后逐個抓取。

那問題來了?待抓取URL列表中,在末尾新增一個URL,就要重新計算一次嗎?

實際不是這樣的。搜索引擎會等到在待抓取URL列表的新增URL達到一定數量時,再進行重新抓取。這樣效率會提升很多。畢竟爬蟲抓取到新增的那第一個,也需要時間的。

爬蟲的OPIC抓取策略

OPIC是online page importance computation的縮寫,意思是“在線頁面重要性計算”,這個是pagerank的升級版本。

它具體的策略邏輯是這樣,爬蟲把互聯網上所有的URL都賦予一個初始的分值,且每個URL都是同等的分值。每當下載一個網頁就把這個網頁的分值平均分攤給這個頁面內的所有鏈接。自然這個頁面的分值就要被清空了。而對于待抓取的URL列表里(當然,剛才那個網頁被清空了分值,也是因為它已經被抓取了),則根據誰的分值最高就優先抓取誰。

區別于pagerank,opic是實時計算的。這里提醒我們,如果單純只考慮opic這個抓取策略來說。無論是這個策略還是pagerank策略都證實了一個邏輯。我們新產生的網頁,被鏈接的次數越多,被抓取的概率就越大。

是不是值得你思考一下你的網頁布局了?

爬蟲抓取的大站優先策略

大站優先抓取,是不是就顧名思義了呢?大型網站就會有先抓???不過這里是有兩種解釋的。我個人認為這兩種解釋爬蟲都在使用。

大站優先抓取的解釋1:比較貼合字面意思,爬蟲會根據待抓取列表中的URL進行歸類,然后判斷域名對應的網站級別。例如權重越高的網站所屬域名越應該優先抓取。

大站優先抓取解釋2:爬蟲將待抓取列表里的URL按照域名進行歸類,然后計算數量。其所屬域名在待抓取列表里數量最多的優先抓取。

這兩個解釋一個是針對網站權重高的,一個是針對每天文章發布數量高且發布很集中的。不過我們試想一下,發布那么集中且那么多篇的站點,一般也都是大站了吧?

這里讓我們思考的是什么呢?

寫文章的同時,應該集中一個時間點推送給搜索引擎。不能一個小時一篇,太分散。不過這個有待考證,有經歷的同學可以進行一下測試。

如上是我分享的5個搜索引擎爬蟲抓取網頁的策略,希望能夠對你有所幫助。當然你也可以關注我的微信訂閱號 webzyg,隨時獲得精華內容。

相關文章

在線客服

外鏈咨詢

掃碼加我微信

微信:juxia_com

返回頂部

肉动漫无码纯肉高H免费,又黄又爽的视频合集,av日韩动漫精品一区二区,欧美性强迫XXXX