您當(dāng)前的位置:首頁 >> SEO知識(shí) >> 網(wǎng)站幫助
有專家認(rèn)為,無論對文獻(xiàn)標(biāo)引的質(zhì)量如何,對用戶檢索的滿足率都不可能百分之百。例如,用戶想檢索關(guān)于陳毅在抗日戰(zhàn)爭中活動(dòng)的文獻(xiàn),采用對標(biāo)引詞(主題詞、關(guān)鍵詞)字段的檢索就很難滿足檢索要求,只有全文檢索才能滿足這一檢索目的。因此,無論對文獻(xiàn)的標(biāo)引和分類如何,全文檢索的功能都是不可替代的。然而,由于全文檢索是直接對“原文”的檢索,檢索時(shí)會(huì)產(chǎn)生誤檢,大量的檢索垃圾降低了全文檢索的查準(zhǔn)率,同時(shí)由于作者用詞的不統(tǒng)一,同義詞繁多,全文檢索的查全率也受到影響。所以,解決這些問題是刻不容緩的。
1.提高查全率
作者用詞的不統(tǒng)一,影響了用戶的查全。例如,查找“非典型肺炎”,由于不同的文獻(xiàn)使用的詞匯不同,如“非典型肺炎”、“SARS”、“非典”等,只用某一詞查找就可能出現(xiàn)漏檢,如果讓用戶去列舉出所有同義詞來檢索,勢必增加了用戶的檢索負(fù)擔(dān)。因此,構(gòu)造全文檢索算法時(shí)應(yīng)考慮到檢索詞的擴(kuò)充,采用同義詞詞典無疑是一個(gè)好的方法。
同義詞詞典是把含義相同的詞匯關(guān)聯(lián)起來,在全文檢索中的作用是,當(dāng)用戶使用某個(gè)詞匯檢索時(shí),系統(tǒng)直接將同義詞取出,構(gòu)成“或”運(yùn)算檢索式,在全文中匹配查詢,這樣確保了具有高查全率的檢索效果。對于同義詞詞典,應(yīng)能夠及時(shí)更新,或具有學(xué)習(xí)功能,為維護(hù)同義詞詞典提供幫助。
2.提高查準(zhǔn)率
由于中文詞之間沒有間隔標(biāo)記,所以進(jìn)行全文檢索時(shí)極易產(chǎn)生誤檢索,使查準(zhǔn)率偏低。例如,用“華人”一詞去檢索,會(huì)使得含有“中華人民共和國”詞匯的文獻(xiàn)被檢索出來;用“民法’’檢索,會(huì)把“人民法院”檢索出來。解決這類問題同樣可通過構(gòu)造檢索輔助詞典來完成,而實(shí)現(xiàn)這一任務(wù)的詞典,稱為“排除詞詞典”。
排除詞詞典的結(jié)構(gòu)為,將檢索用詞(如民法)與欲排除詞(如人民法院、移民法等)關(guān)聯(lián)起來,用于在檢索時(shí)消除誤檢。用排除詞詞典排除誤檢的做法有許多,最簡單的方法是將檢索詞在每一文獻(xiàn)中檢索出數(shù)量(檢索詞在文獻(xiàn)中出現(xiàn)次數(shù))與所有欲排除詞在文獻(xiàn)中出現(xiàn)的數(shù)量相比較,若相等,該文獻(xiàn)就被排除,否則為命中。