1、 全文搜索引擎的“網(wǎng)絡機器人”或“網(wǎng)絡蜘蛛”是一種網(wǎng)絡上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內的網(wǎng)站,并沿著網(wǎng)絡上的鏈接從一個網(wǎng)頁到另一個網(wǎng)頁,從一個網(wǎng)站到另一個網(wǎng)站采集網(wǎng)頁資料。它為保證采集的資料最新,還會回訪已抓取過的網(wǎng)頁。網(wǎng)絡機器人或網(wǎng)絡蜘蛛采集的網(wǎng)頁,還要有其它程序進行分析,根據(jù)一定的相關度算法進行大量的計算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫中。
我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統(tǒng)的檢索界面,當你輸入關鍵詞進行查詢時,搜索引擎會從龐大的數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網(wǎng)頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當我們以同一關鍵詞用不同的搜索引擎查詢時,搜索結果也就不盡相同。
2、和全文搜索引擎一樣,分類目錄的整個工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負責收集網(wǎng)站的信息。隨著收錄站點的增多,現(xiàn)在一般都是由站點管理者遞交自己的網(wǎng)站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網(wǎng)站,以決定是否收錄該站點。如果該站點審核通過,分類目錄的編輯人員還需要分析該站點的內容,并將該站點放在相應的類別和目錄中。所有這些收錄的站點同樣被存放在一個“索引數(shù)據(jù)庫”中。用戶在查詢信息時,可以選擇按照關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟全文搜索引擎一樣,也是根據(jù)信息關聯(lián)程度排列網(wǎng)站。
需要注意的是,分類目錄的關鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡介等內容中進行,它的查詢結果也只是被收錄網(wǎng)站首頁的URL地址,而不是具體的頁面。分類目錄就像一個電話號碼薄一樣,按照各個網(wǎng)站的性質,把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個網(wǎng)站的詳細地址,一般還會提供各個網(wǎng)站的內容簡介,用戶不使用關鍵詞也可進行查詢,只要找到相關目錄,就完全可以找到相關的網(wǎng)站(注意:是相關的網(wǎng)站,而不是這個網(wǎng)站上某個網(wǎng)頁的內容,某一目錄中網(wǎng)站的排名一般是按照標題字母的先后順序或者收錄的時間順序決定的。