您當(dāng)前的位置:首頁(yè) >> SEO知識(shí) >> 網(wǎng)站幫助
不同的Web信息檢索系統(tǒng)在工作原理上各不一樣,下面就結(jié)合搜索引擎來(lái)具體說明一下一般Web信息檢索系統(tǒng)的特點(diǎn)。雖然各個(gè)搜索引擎的具體實(shí)現(xiàn)不盡相同,但一般包含爬蟲程序、分析程序、索引程序、檢索程序和用戶接口界面5個(gè)基本部分,而且大致的工作原理是相同的。
Web搜索引擎主要是通過爬蟲程序定期遍歷互聯(lián)網(wǎng),將網(wǎng)頁(yè)的統(tǒng)一資源定位符(URL)、內(nèi)容和采集時(shí)間等相關(guān)信息收集到Web服務(wù)器上,然后通過必要的信息索引和存儲(chǔ)優(yōu)化處理,利用特定的檢索界面對(duì)Web用戶直接提供服務(wù)。這種處理方式在很多方面適應(yīng)了Web信息的特點(diǎn)。例如,爬蟲程序的定期遍歷可以將不斷動(dòng)態(tài)變化的Web網(wǎng)頁(yè)信息采集過來(lái),既能有效反映最新的網(wǎng)頁(yè)信息,又能將分布于各地的Web信息統(tǒng)一存儲(chǔ)在搜索引擎的本地服務(wù)器上,實(shí)現(xiàn)信息資源的本地化,以實(shí)現(xiàn)對(duì)用戶查詢的快速響應(yīng);同時(shí),搜索引擎提供了基于關(guān)鍵詞的全文檢索方式,避免了不必要的詞語(yǔ)分析和語(yǔ)義處理,適應(yīng)半結(jié)構(gòu)化網(wǎng)頁(yè)信息的處理特點(diǎn),而且還能提高信息的查全率。
它的具體工作流程包括以下幾步:
步,由爬蟲程序采用一定的搜索策略對(duì)Web網(wǎng)絡(luò)進(jìn)行遍歷并下載網(wǎng)頁(yè),系統(tǒng)中維護(hù)一個(gè)超鏈隊(duì)列或者堆棧,其中包含一些起始URL;爬蟲程序從這些URL出發(fā),下載相應(yīng)的頁(yè)面,并從中抽取出新的超鏈加入到隊(duì)列或者堆棧中。上述過程不斷重復(fù)直到堆棧為空。為提高效率,搜索引擎中可能會(huì)有多個(gè)爬蟲程序進(jìn)程同時(shí)遍歷不同的Web子空間。為了便于將來(lái)擴(kuò)展服務(wù),爬蟲程序應(yīng)能改變搜索范圍和搜索策略,一般采用以寬度優(yōu)先搜索策略為主、深度優(yōu)先搜索策略為輔的搜索策略。
第二步,由分析程序?qū)ε老x程序下載的網(wǎng)頁(yè)進(jìn)行分析以用于索引,網(wǎng)頁(yè)分析技術(shù)一般包括分詞(有些僅從文檔某些部分抽詞,如Altavista)或者使用停用詞表(stop list)來(lái)過濾網(wǎng)頁(yè)信息,同時(shí)還提供諸如單復(fù)數(shù)轉(zhuǎn)換、詞綴去除和同義詞替換等詞語(yǔ)轉(zhuǎn)換,這些技術(shù)的具體實(shí)現(xiàn)往往與處理方式以及系統(tǒng)的索引模型密切相關(guān)。
第三步,索引程序?qū)⒕W(wǎng)頁(yè)信息表示為一種便于檢索的方式并存儲(chǔ)在索引數(shù)據(jù)庫(kù)中。索引的質(zhì)量是Web信息檢索系統(tǒng)成功的關(guān)鍵因素之一。一個(gè)好的索引模型應(yīng)該易于實(shí)現(xiàn)和維護(hù)、檢索速度更快、空間需求更低。搜索引擎普遍借鑒了傳統(tǒng)信息檢索中的索引模型,包括倒排文檔、向量空間模型和概率模型等。
第四步,檢索程序從索引中找出與用戶查詢請(qǐng)求相關(guān)的網(wǎng)頁(yè)信息,采用與分析網(wǎng)頁(yè)文檔相似的方法來(lái)處理用戶查詢請(qǐng)求,最后將相關(guān)度大于閾值的所有網(wǎng)頁(yè)按照相關(guān)度遞減的順序排列并返還給用戶,當(dāng)然搜索引擎的相關(guān)度判斷并不一定與用戶的需求完全吻合。傳統(tǒng)的方式只是利用詞頻和詞語(yǔ)出現(xiàn)的標(biāo)記和位置來(lái)設(shè)置權(quán)重,新的設(shè)置權(quán)重方式主要利用基于超鏈分析的方法,然而只有在系統(tǒng)中引入用戶特征模式信息后才能最終為用戶提供個(gè)性化的信息檢索服務(wù)。
最后,用戶接口為用戶提供可視化的查詢輸入和結(jié)果輸出界面。在查詢界面中,用戶按照搜索引擎的查詢語(yǔ)法使用檢索詞語(yǔ)及各種簡(jiǎn)單、高級(jí)的檢索條件,構(gòu)造自己的查詢表達(dá)式。在輸出界面中,搜索引擎將檢索結(jié)果展現(xiàn)為一個(gè)線性的網(wǎng)頁(yè)列表,其中包含了網(wǎng)頁(yè)的標(biāo)題、摘要和相關(guān)超鏈等信息。由于Web信息是動(dòng)態(tài)變化的,因此,Robot分析器和索引器模塊要定期更新數(shù)據(jù)庫(kù),時(shí)間通常約為一個(gè)月。索引數(shù)據(jù)庫(kù)越大,更新也越困難。這就使得這種傳統(tǒng)的被動(dòng)服務(wù)方式其實(shí)不是非常及時(shí)有效,借鑒信息推送服務(wù)的思想可以極大地提高Web信息檢索系統(tǒng)的及時(shí)性。