技術(shù)觀點(diǎn)

搜索策略的基本邏輯

發(fā)布時間：2020-06-21 10:38:56瀏覽次數(shù):

網(wǎng)絡(luò)資源數(shù)量巨大，種類多樣。任何搜索引擎要采集所有的網(wǎng)絡(luò)資源，既不可能，也沒有必要。如何根據(jù)鏈接結(jié)構(gòu)及對網(wǎng)絡(luò)數(shù)據(jù)的分析確定適用的訪問策略，是信息采集的關(guān)鍵。常見的訪問策略包括常規(guī)遍歷算法和優(yōu)化遍歷算法兩類。

常規(guī)遍歷形式，通常包括廣度優(yōu)先算法、深度優(yōu)先算法、IP地址搜索策略等。

廣度優(yōu)先算法按照鏈接的層次進(jìn)行，在訪問完一個層次后再進(jìn)行下一層次的訪問，如此由淺入深、逐級進(jìn)行。這一算法可以增加訪問的廣度，使得多個服務(wù)器的上層資源得到采集，但鏈接結(jié)構(gòu)中層次較后的有價值資源往往難于獲得。

深度優(yōu)先算法從起始頁面出發(fā)，沿頁面上的某一個鏈接進(jìn)行搜索，逐級深入，一直到達(dá)底層網(wǎng)頁，才返回起始頁，選擇其他鏈接進(jìn)行類似的訪問。這種算法可以遍歷一個站點(diǎn)F的深層頁面，但會影響它的遍歷廣度或遍歷的時間，有時還有陷入循環(huán)狀態(tài)的危險。

IP地址搜索策略將訪問限制在指定的IP地址范圍中，不考慮各文檔中指向其他站點(diǎn)的鏈接。這種算法能夠有針對性地對于特定領(lǐng)域的資源進(jìn)行采集，適合于按照特定目的編制的搜索引擎。

上述各種方式在實(shí)際使用中也可以根據(jù)需要，結(jié)合使用，例如將廣度優(yōu)先與深度優(yōu)先結(jié)合等。但一般情況下，這些常規(guī)遍歷形式通常只提供一般的訪問算法，并不能優(yōu)化采集的質(zhì)量。要改進(jìn)采集質(zhì)量，應(yīng)當(dāng)按照使用的需要，選擇與系統(tǒng)有較高相關(guān)性且質(zhì)量比較高的網(wǎng)頁，并結(jié)合采用相應(yīng)的優(yōu)化采集算法。有些論文論述了網(wǎng)絡(luò)采集中常用的一些優(yōu)化算法，包括：

(1)興趣驅(qū)動(Interest-driven)。即以用戶需求作為網(wǎng)頁采集的依據(jù)。通常依據(jù)檢索杏詢與網(wǎng)絡(luò)的匹配度確定，方法是依據(jù)選定的查詢詞集作為網(wǎng)頁采集的依據(jù)，根據(jù)查詢詞與網(wǎng)頁文本的匹配程度確定其相關(guān)性，同時結(jié)合該詞在整個網(wǎng)頁庫中的反文獻(xiàn)頻率(idf)，確定其重要性值。由于使用idf項(xiàng)需要的全局信息在采集過程中無法得到，可根據(jù)已采集到網(wǎng)頁的平均值或以過去數(shù)據(jù)的估算值加以代替。

(2)流行驅(qū)動(Popularity-driven)。即判斷重要性程度或得到承認(rèn)的廣泛程度，方法是考察指向它的鏈接數(shù)量。采用這一方式，通常應(yīng)計(jì)算出網(wǎng)頁獲得的鏈接數(shù)量，并將這一數(shù)量作為是否采集的依據(jù)。更加全面地判定網(wǎng)頁重要性的方法，是使用Google的PageRank算法，同時計(jì)算鏈接該網(wǎng)頁的其他網(wǎng)頁的重要性，但這一方法需要涉及相關(guān)網(wǎng)頁的鏈接情況，在采集的情況下很難做到。

(3)網(wǎng)址驅(qū)動(Location-driven)。即不是以內(nèi)容，而是將網(wǎng)址作為判定網(wǎng)頁重要性的依據(jù)，包括，對特定域名賦予高值，進(jìn)行針對性采集；對于包含特定字串如"home"的地址賦予高值；選用帶有較少斜線的網(wǎng)址等。網(wǎng)址驅(qū)動容易操作，在特定系統(tǒng)中也十分有用。例如在專業(yè)搜索引擎中，可以明確將選定的網(wǎng)站、域名作為網(wǎng)頁采集的邊界。

URL列表的排序控制是在采集控制器中進(jìn)行的，在未獲得網(wǎng)頁的情況下，網(wǎng)址驅(qū)動是一個可以直接加以采用的方式，如北大天網(wǎng)在搜索中采用這一方法；但對于相關(guān)性判斷或重要性判斷，由于在訪問過程中，不可能事先得到該網(wǎng)頁數(shù)據(jù)，一般只能利用采集器已采集的信息作為依據(jù)。例如，利用已采集網(wǎng)頁的鎖定文本(Anchor Text)來估計(jì)特定網(wǎng)頁可能包含的文本，甚至以“鄰近”網(wǎng)頁的文本作為評估依據(jù)等。某個文獻(xiàn)記錄了采用上述方法在有限范圍中試驗(yàn)的情況。一些論文討論了結(jié)合數(shù)據(jù)挖掘進(jìn)行采集優(yōu)化的問題，但目前仍缺乏大型搜索引擎實(shí)際應(yīng)用的例子。

上一篇:搜索引擎基于鏈接的排序算法

下一篇:如何避免搜索引擎抓取網(wǎng)站在DMOZ分類目錄的信息

相關(guān)文章

无遮挡色视频真人免费-国产男女性潮高清免费网站-久久国产精品二国产精品-色老二导航

專注抖音視頻、谷歌推廣20年

搜索策略的基本邏輯

无遮挡色视频真人免费-国产男女性潮高清免费网站-久久国产精品二国产精品-色老二导航

專注抖音視頻、谷歌推廣20年

搜索策略的基本邏輯

專注抖音視頻、谷歌推廣20年