您當(dāng)前的位置:首頁 >> SEO知識 >> 網(wǎng)站幫助
網(wǎng)絡(luò)資源數(shù)量巨大,種類多樣。任何搜索引擎要采集所有的網(wǎng)絡(luò)資源,既不可能,也沒有必要。如何根據(jù)鏈接結(jié)構(gòu)及對網(wǎng)絡(luò)數(shù)據(jù)的分析確定適用的訪問策略,是信息采集的關(guān)鍵。常見的訪問策略包括常規(guī)遍歷算法和優(yōu)化遍歷算法兩類。
常規(guī)遍歷形式,通常包括廣度優(yōu)先算法、深度優(yōu)先算法、IP地址搜索策略等。
廣度優(yōu)先算法按照鏈接的層次進行,在訪問完一個層次后再進行下一層次的訪問,如此由淺入深、逐級進行。這一算法可以增加訪問的廣度,使得多個服務(wù)器的上層資源得到采集,但鏈接結(jié)構(gòu)中層次較后的有價值資源往往難于獲得。
深度優(yōu)先算法從起始頁面出發(fā),沿頁面上的某一個鏈接進行搜索,逐級深入,一直到達底層網(wǎng)頁,才返回起始頁,選擇其他鏈接進行類似的訪問。這種算法可以遍歷一個站點F的深層頁面,但會影響它的遍歷廣度或遍歷的時間,有時還有陷入循環(huán)狀態(tài)的危險。
IP地址搜索策略將訪問限制在指定的IP地址范圍中,不考慮各文檔中指向其他站點的鏈接。這種算法能夠有針對性地對于特定領(lǐng)域的資源進行采集,適合于按照特定目的編制的搜索引擎。
上述各種方式在實際使用中也可以根據(jù)需要,結(jié)合使用,例如將廣度優(yōu)先與深度優(yōu)先結(jié)合等。但一般情況下,這些常規(guī)遍歷形式通常只提供一般的訪問算法,并不能優(yōu)化采集的質(zhì)量。要改進采集質(zhì)量,應(yīng)當(dāng)按照使用的需要,選擇與系統(tǒng)有較高相關(guān)性且質(zhì)量比較高的網(wǎng)頁,并結(jié)合采用相應(yīng)的優(yōu)化采集算法。有些論文論述了網(wǎng)絡(luò)采集中常用的一些優(yōu)化算法,包括:
(1)興趣驅(qū)動(Interest-driven)。即以用戶需求作為網(wǎng)頁采集的依據(jù)。通常依據(jù)檢索杏詢與網(wǎng)絡(luò)的匹配度確定,方法是依據(jù)選定的查詢詞集作為網(wǎng)頁采集的依據(jù),根據(jù)查詢詞與網(wǎng)頁文本的匹配程度確定其相關(guān)性,同時結(jié)合該詞在整個網(wǎng)頁庫中的反文獻頻率(idf),確定其重要性值。由于使用idf項需要的全局信息在采集過程中無法得到,可根據(jù)已采集到網(wǎng)頁的平均值或以過去數(shù)據(jù)的估算值加以代替。
(2)流行驅(qū)動(Popularity-driven)。即判斷重要性程度或得到承認的廣泛程度,方法是考察指向它的鏈接數(shù)量。采用這一方式,通常應(yīng)計算出網(wǎng)頁獲得的鏈接數(shù)量,并將這一數(shù)量作為是否采集的依據(jù)。更加全面地判定網(wǎng)頁重要性的方法,是使用Google的PageRank算法,同時計算鏈接該網(wǎng)頁的其他網(wǎng)頁的重要性,但這一方法需要涉及相關(guān)網(wǎng)頁的鏈接情況,在采集的情況下很難做到。
(3)網(wǎng)址驅(qū)動(Location-driven)。即不是以內(nèi)容,而是將網(wǎng)址作為判定網(wǎng)頁重要性的依據(jù),包括,對特定域名賦予高值,進行針對性采集;對于包含特定字串如"home"的地址賦予高值;選用帶有較少斜線的網(wǎng)址等。網(wǎng)址驅(qū)動容易操作,在特定系統(tǒng)中也十分有用。例如在專業(yè)搜索引擎中,可以明確將選定的網(wǎng)站、域名作為網(wǎng)頁采集的邊界。
URL列表的排序控制是在采集控制器中進行的,在未獲得網(wǎng)頁的情況下,網(wǎng)址驅(qū)動是一個可以直接加以采用的方式,如北大天網(wǎng)在搜索中采用這一方法;但對于相關(guān)性判斷或重要性判斷,由于在訪問過程中,不可能事先得到該網(wǎng)頁數(shù)據(jù),一般只能利用采集器已采集的信息作為依據(jù)。例如,利用已采集網(wǎng)頁的鎖定文本(Anchor Text)來估計特定網(wǎng)頁可能包含的文本,甚至以“鄰近”網(wǎng)頁的文本作為評估依據(jù)等。某個文獻記錄了采用上述方法在有限范圍中試驗的情況。一些論文討論了結(jié)合數(shù)據(jù)挖掘進行采集優(yōu)化的問題,但目前仍缺乏大型搜索引擎實際應(yīng)用的例子。