您當(dāng)前的位置:首頁(yè) >> SEO知識(shí) >> 網(wǎng)站幫助
搜索引擎的一個(gè)突出問(wèn)題是,關(guān)鍵詞搜索返回的網(wǎng)絡(luò)資源數(shù)量過(guò)多,用戶很難完整地瀏覽,研究發(fā)現(xiàn),多數(shù)普通用戶在檢索時(shí),只瀏覽前一、兩頁(yè)的網(wǎng)絡(luò)資源。因此如何在檢索結(jié)果提供時(shí),將最符合檢索要求的資源在排列中靠前,成為提高檢準(zhǔn)率的重要手段。針對(duì)這一情況,網(wǎng)絡(luò)關(guān)鍵詞搜索系統(tǒng)的搜索結(jié)果提供,一般都采用按匹配加權(quán)的方式加以排序顯示,即在返回全部搜索結(jié)果的同時(shí),按照與搜索需求的符合程度排序顯示,以便將最符合用戶需求的資源在前面顯示,在保持檢全率的同時(shí)提高檢準(zhǔn)率。
由于這一原因,自從主題搜索引擎使用以來(lái),好的搜索排序方案成為反映搜索引擎質(zhì)量的關(guān)鍵因素之一。不同的系統(tǒng)往往采用不同的排序提供策略,著名搜索引擎如Google多年來(lái)被一些機(jī)構(gòu)評(píng)為最佳搜索引擎,其率先提出PageRank算法,優(yōu)化了搜索排序的效果,是一個(gè)重要的因素。根據(jù)目前能見(jiàn)到的資料,各種搜索引擎用來(lái)確定網(wǎng)絡(luò)資源排序依據(jù)的因素,基本上涉及兩個(gè)方面,其一是相關(guān)性因素,即確定其內(nèi)容是否符合搜索提問(wèn);其二則是重要性因素,即判斷該資源本身是否有價(jià)值。從實(shí)際使用情況看,目前采用作為排序依據(jù)的加權(quán)方案涉及的因素通常包括:
1.詞頻。即將搜索關(guān)鍵詞的匹配詞頻作為排序顯示的一個(gè)因素。搜索關(guān)鍵詞詞的匹配數(shù)量是資源相關(guān)性的一個(gè)基本因素。在這類算法中,反文獻(xiàn)頻率往往被作為一個(gè)因素納入權(quán)值計(jì)算的范圍。
2.詞匯一致度。在使用多個(gè)詞進(jìn)行搜索匹配時(shí),通常需要根據(jù)不同詞匯的匹配度分配權(quán)值,如,文本與搜索式中的詞是全部匹配還是部分匹配,文本檢索詞的詞序與搜索式的次序是否一致以及搜索詞的距離因素等,均可以根據(jù)情況確定相應(yīng)的權(quán)值。
3.詞位因素。即根據(jù)匹配詞出現(xiàn)位置的重要程度給予不同的權(quán)值,傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)中通常將標(biāo)題、關(guān)鍵詞、文摘、小標(biāo)題、首段、尾段、段落的首句、一般的正文等賦予不同的權(quán)值,在網(wǎng)絡(luò)搜索中,一般根據(jù)網(wǎng)絡(luò)文本的特點(diǎn),對(duì)標(biāo)題、黑體字、URL等的詞分別給予特定的權(quán)值。
4.鏈接因素。根據(jù)鏈接的情況賦予相應(yīng)權(quán)值,作為排序的依據(jù)。比較典型的如(Google按照PageRank算法,將鏈接數(shù)量以及鏈接對(duì)象的重要程度作為排序依據(jù);Teoma則采用按照同一專業(yè)領(lǐng)域網(wǎng)站(Community)的鏈接情況作為重要性依據(jù)的排列策略。
5.點(diǎn)擊因素。即根據(jù)用戶使用情況,將使用頻率較高的搜索對(duì)象賦予相應(yīng)權(quán)值,提前排列。如HotBot采用Direct Hit技術(shù),對(duì)用戶的搜索結(jié)果集進(jìn)行分析,根據(jù)訪問(wèn)網(wǎng)站的用戶的數(shù)量和用戶在網(wǎng)站平均停留時(shí)間來(lái)判斷哪些網(wǎng)站是“受歡迎的網(wǎng)站”,然后對(duì)檢索結(jié)果進(jìn)行重新排序,提高那些符合檢索要求而又“受歡迎的網(wǎng)站”在結(jié)果集中的排名,相應(yīng)降低不受用戶關(guān)注網(wǎng)站的排名。
6.排除商業(yè)因素。如,某些系統(tǒng)若發(fā)現(xiàn)搜索對(duì)象與人為增加搜索要素的商業(yè)公司網(wǎng)站有聯(lián)系,則不予排列,以保持系統(tǒng)排列的客觀性。