您當前的位置:首頁 >> SEO知識 >> 網(wǎng)站幫助
有專家認為,無論對文獻標引的質(zhì)量如何,對用戶檢索的滿足率都不可能百分之百。例如,用戶想檢索關于陳毅在抗日戰(zhàn)爭中活動的文獻,采用對標引詞(主題詞、關鍵詞)字段的檢索就很難滿足檢索要求,只有全文檢索才能滿足這一檢索目的。因此,無論對文獻的標引和分類如何,全文檢索的功能都是不可替代的。然而,由于全文檢索是直接對“原文”的檢索,檢索時會產(chǎn)生誤檢,大量的檢索垃圾降低了全文檢索的查準率,同時由于作者用詞的不統(tǒng)一,同義詞繁多,全文檢索的查全率也受到影響。所以,解決這些問題是刻不容緩的。
1.提高查全率
作者用詞的不統(tǒng)一,影響了用戶的查全。例如,查找“非典型肺炎”,由于不同的文獻使用的詞匯不同,如“非典型肺炎”、“SARS”、“非典”等,只用某一詞查找就可能出現(xiàn)漏檢,如果讓用戶去列舉出所有同義詞來檢索,勢必增加了用戶的檢索負擔。因此,構造全文檢索算法時應考慮到檢索詞的擴充,采用同義詞詞典無疑是一個好的方法。
同義詞詞典是把含義相同的詞匯關聯(lián)起來,在全文檢索中的作用是,當用戶使用某個詞匯檢索時,系統(tǒng)直接將同義詞取出,構成“或”運算檢索式,在全文中匹配查詢,這樣確保了具有高查全率的檢索效果。對于同義詞詞典,應能夠及時更新,或具有學習功能,為維護同義詞詞典提供幫助。
2.提高查準率
由于中文詞之間沒有間隔標記,所以進行全文檢索時極易產(chǎn)生誤檢索,使查準率偏低。例如,用“華人”一詞去檢索,會使得含有“中華人民共和國”詞匯的文獻被檢索出來;用“民法’’檢索,會把“人民法院”檢索出來。解決這類問題同樣可通過構造檢索輔助詞典來完成,而實現(xiàn)這一任務的詞典,稱為“排除詞詞典”。
排除詞詞典的結構為,將檢索用詞(如民法)與欲排除詞(如人民法院、移民法等)關聯(lián)起來,用于在檢索時消除誤檢。用排除詞詞典排除誤檢的做法有許多,最簡單的方法是將檢索詞在每一文獻中檢索出數(shù)量(檢索詞在文獻中出現(xiàn)次數(shù))與所有欲排除詞在文獻中出現(xiàn)的數(shù)量相比較,若相等,該文獻就被排除,否則為命中。