網絡信息挖掘技術可以提高搜索引擎獲取信息的準確性,并可以對用戶搜索結果進行相關處理,提高查準率和查全率。網絡信息挖掘技術在搜索引擎中的應用包括:
(1)文檔的自動分類。Web頁面與一般的純文本文件不同,它是HTML格式的超文本,頁面中有
(2)自動文摘的形成。搜索引擎向用戶返回檢索結果時,通常要給出每個文檔的簡單摘要,目前,大部分搜索引擎是機械地截取文檔的前幾句。而通過Web文本挖掘中的文本總結技術,可以從Web頁面中提煉出重要的信息,形成文檔摘要,使用戶能較全面地了解文檔的內容。
(3)檢索結果的聚類。搜索引擎的檢索結果常包含大量信息,且其中大部分是與檢索無關的信息。我們可以通過網絡信息挖掘技術對檢索結果的文檔進行聚類,把結果信息用超鏈接方法以可視化方式提供給用戶,由用戶選擇自己感興趣的一簇,將大大減少瀏覽的頁面數量。
(4)查詢結果的相關度排序。Web頁面中包含了許多超鏈接,有指向其他網頁的,也有其他網頁指向本網頁的。因此,指向該網頁的鏈接體現了該網頁的引用情況。可用網絡信息挖掘技術對網頁引用的頻率統計確定它的重要性和相關性,從而有助于對搜索引擎返回結果進行相關度排序。
(5)實現個性化的搜索引擎。目前,不同的人使用同一搜索引擎和同一檢索詞得到的結果相同,也就是說搜索引擎沒有實現個性化檢索,即沒有考慮到人的地域、年齡、工作性質等方面的差別。但是,用戶在使用搜索引擎搜索信息時,在網站服務器上留下了大量的有用信息,通過對這些信息的挖掘,可以發現一些與用戶檢索的關鍵詞密切相關的網頁,實現個性化檢索。
綜上所述,這是一個基本的搜索引擎工作流程,有助于大家加深對搜索引擎工作的認識。搜索引擎只有一個目的,就是提供最相關的搜索結果給用戶。從搜索引擎優化的角度而言,我們也應該提供好的網頁給搜索引擎。