您的位置:老鐵SEO > 站長新聞 > SEO >

搜索引擎爬蟲抓取網頁的三大更新策略

文章來源:未知

作者:老鐵SEO

人氣:11

2019-10-08

搜索引擎爬蟲的更新,基本應用在像快照的更新,搜索引擎對已抓取頁面的再抓取行為等。至于為什么要進行再抓取基本是因為互聯網上萬萬億的頁面量。很多頁面還是有一直變化的。這個變化的前置因子,導致了爬蟲要不斷的更新自己的數據,從而一定要對已經抓取的網頁進行再抓取。那搜索引擎爬蟲的三大更新策略都是什么呢?

搜索引擎爬蟲的歷史更新策略

所謂歷史更新策略,就是針對已經抓取的網頁有一個再抓取的時間限制。例如爬蟲抓取我SEO博客的首頁,從而搜索引擎通過一直以來的抓取得出我的博客首頁平均每3天更新一次,那么爬蟲的抓取策略就會調整為每3天訪問一次我的博客首頁。

這樣的更新抓取策略告訴我們,網頁變化頻繁就會引來蜘蛛的頻繁抓取。所以在這里如果你的網頁全部是靜態的。也就意味著不生成一遍對應頁面是不會發生變化的。相對而言針對這種策略邏輯你就不是很站好。所以網址設置為偽靜態的,在網站打開速度能夠很好控制的前提下,把網頁本身設置為動態頁面是很不錯的選擇。

搜索引擎爬蟲的用戶體驗更新策略

所謂用戶體驗的網頁更新策略,是搜索引擎認為網頁參與具有一定搜索量詞的排名,且在前3頁的,是經常會被用戶訪問到的頁面。那么針對這類頁面要更優先的進行抓取更新。

而3頁之后的網頁對于用戶而言,訪問的人占到了極少數,晚一些時間更新也未嘗不可。因此采取的一種網頁抓取更新策略。

這種策略讓我們知道,一些核心關鍵詞排名靠前的網頁,被爬蟲抓取的頻次是更多的。那么值得思考的一個問題是網站也會有一些詳情頁,聚合頁甚至文章頁參與比錯的詞的排名。這是不是意味著這次頁面抓取量也不錯呢?針對這個問題,趙彥剛之前通過對訪問日志的分析確定了這個答案,在80%的情況下,確實是這樣的。但這種頁面的頻率遠低于首頁、頻道頁等距離首頁更近,路徑更短的頁面抓取量。

不過,我們還是可以好好優化我們的詳情頁/文章頁,在這類頁面以展示最新內容,為最新內容的收錄增加爬蟲抓取的入口。

搜索引擎爬蟲抓取網頁的抽樣聚類策略

談到這個策略,我們先從字面意思來看“抽樣,聚類”。抽樣是指從網站中抽取一些樣本出來進行觀察,而聚類是根據這些樣本的觀察得出一定的結論后應用于這個類型上。

我們的網站都是有不同類型組成的,例如列表頁、產品詳情頁、文章頁、頻道頁、聚合頁等,這些都是不同的類型。搜索引擎從這中間抽選出一些樣本,進行觀察后得出一個更新周期后,應用于整個類型的方式就是抽樣聚類的網頁抓取更新策略。

我們舉個例子,搜索引擎從列表頁抽樣找到A列表頁,通過分析觀察發現A列表頁每2天可以抓取一次。然后和A列表頁同類型的還有B、C、D列表頁,因為他們的模版一樣、導航都有、首頁下模塊也特指這四個列表頁。那么他們是一類的,所以B、C、D列表頁和A列表頁一樣,都是2天一抓取。

好了今天的分享就到這里,希望對你有所幫助,如果你有什么問題歡迎在留言去給我留言。

相關文章

在線客服

外鏈咨詢

掃碼加我微信

微信:juxia_com

返回頂部

肉动漫无码纯肉高H免费,又黄又爽的视频合集,av日韩动漫精品一区二区,欧美性强迫XXXX