做seo就是為了取悅搜索引擎那么我們必須要了解搜索引擎抓取頁面的方式 搜索引擎不可能一次性抓取到網(wǎng)站中所有的頁面而且網(wǎng)站中頁面的數(shù)量也會不斷地變化內(nèi)容也在不斷地更新。因此搜索引擎還需要對已經(jīng)抓取的頁面進行維護、更新以便能及時獲取頁面中最新的信息及抓取更多的新頁面。常見頁面維護方式包括定期抓取、增量抓取及分類定位抓取。
●定期抓取 定期抓取也稱為周期性抓取即搜索引擎周期性地對網(wǎng)站中已收錄的頁面進行全面更新。更新的時候把抓取到的新頁面替換原有的舊頁面刪除不存在的頁面并存儲新發(fā)現(xiàn)的頁面。周期性更新針對的是全部已收錄的頁面因此更新周期會比較長。例如Google-般是3060天才會對已收錄的頁面進行更新。 定期抓取算法的實現(xiàn)相對簡單。由于每次更新涉及到網(wǎng)站中所有已經(jīng)收錄的頁面因此頁面權(quán)重的再分配也是同步進行的。這種方式適用于維護頁面比較少、內(nèi)容更新緩慢的網(wǎng)站例如普通的企業(yè)網(wǎng)站。但是由于更新周期十分漫長這就導致不能及時向用戶反映更新其間頁面的變化情況。例如某個頁面的內(nèi)容更新以后至少需要3060天才能在搜索引擎上有所體現(xiàn)。
●增量抓取 增量抓取是通過對已抓取的頁面進行定時監(jiān)控實現(xiàn)對頁面的更新及維護。但是對網(wǎng)站中的每個頁面都進行定時監(jiān)控的做法是不現(xiàn)實的;谥匾撁鏀y帶重要內(nèi)容的思想以及80/20法則搜索引擎只需對網(wǎng)站中部分重要頁面進行定時的監(jiān)控即可獲取網(wǎng)站中相對重要的信息。因此增量抓取只針對網(wǎng)站中某些重要的頁面而非所有已經(jīng)收錄的頁面這也是為什么搜索引擎對重要頁面的更新周期會更短的原因。例如內(nèi)容經(jīng)常更新的頁面搜索引擎也會經(jīng)常對其進行更新從而可以及時發(fā)現(xiàn)新內(nèi)容、新鏈接并刪除不存在的信息。 由于增量抓取是在原有頁面的基礎上進行的因此會大大縮減搜索引擎的抓取時間而且還可以及時向用戶展示頁面中最新的內(nèi)容。
●分類定位抓取 與增量抓取由頁面重要性決定不同分類定位抓取是指根據(jù)頁面的類別或性質(zhì)而制定相應更新周期的頁面監(jiān)控方式。例如對于“新聞資訊”與“資源下載”這兩類頁面新聞資訊類頁面的更新周期可以精確到每分鐘而下載類頁面更新周期就可以定為一天或更長。 分類定位抓取對不同類別的頁面進行分開處理這樣就可以節(jié)省大量的抓取時間并大大提高頁面內(nèi)容的實時性也增強頁面抓取的靈活性。但是按照類別而制定頁面更新周期的方式比較籠統(tǒng)很難跟蹤頁面的更新情況。因為即使是相同類別的頁面在不同的網(wǎng)站上內(nèi)容的更新周期也會存在很大的差別。例如新聞類頁面在大型門戶網(wǎng)站中內(nèi)容的更新速度就會比其他小型網(wǎng)站快得多。
所以還需要結(jié)合其他的方式例如增量抓取等對頁面進行監(jiān)控、更新。 實際上搜索引擎對網(wǎng)站中頁面的維護也是結(jié)合多種方式進行相當于間接為每一個頁面選擇最合適的維護方式。這樣既可以減少搜索引擎的負擔又可以為用戶提供及時的信息。 例如在一個網(wǎng)站中會存在多種不同性質(zhì)的頁面常見的包括首頁、論壇頁面、內(nèi)容頁面等。對于更新比較頻繁的頁面例如首頁可以使用增量抓取方式對其進行監(jiān)控這樣就可以對網(wǎng)站中相對重要的頁面進行及時更新而對于實時性非常高的論壇頁面則可以采用分類定位的抓取方式而為了防止遺漏網(wǎng)站中的某些頁面還需要采用定期抓取的方式。