技術(shù)觀點

什么是全文搜索引擎

發(fā)布時間：2020-06-23 13:28:59瀏覽次數(shù):

有專家認為，無論對文獻標引的質(zhì)量如何，對用戶檢索的滿足率都不可能百分之百。例如，用戶想檢索關(guān)于陳毅在抗日戰(zhàn)爭中活動的文獻，采用對標引詞(主題詞、關(guān)鍵詞)字段的檢索就很難滿足檢索要求，只有全文檢索才能滿足這一檢索目的。因此，無論對文獻的標引和分類如何，全文檢索的功能都是不可替代的。然而，由于全文檢索是直接對“原文”的檢索，檢索時會產(chǎn)生誤檢，大量的檢索垃圾降低了全文檢索的查準率，同時由于作者用詞的不統(tǒng)一，同義詞繁多，全文檢索的查全率也受到影響。所以，解決這些問題是刻不容緩的。

1．提高查全率

作者用詞的不統(tǒng)一，影響了用戶的查全。例如，查找“非典型肺炎”，由于不同的文獻使用的詞匯不同，如“非典型肺炎”、“SARS”、“非典”等，只用某一詞查找就可能出現(xiàn)漏檢，如果讓用戶去列舉出所有同義詞來檢索，勢必增加了用戶的檢索負擔。因此，構(gòu)造全文檢索算法時應考慮到檢索詞的擴充，采用同義詞詞典無疑是一個好的方法。

同義詞詞典是把含義相同的詞匯關(guān)聯(lián)起來，在全文檢索中的作用是，當用戶使用某個詞匯檢索時，系統(tǒng)直接將同義詞取出，構(gòu)成“或”運算檢索式，在全文中匹配查詢，這樣確保了具有高查全率的檢索效果。對于同義詞詞典，應能夠及時更新，或具有學習功能，為維護同義詞詞典提供幫助。

2．提高查準率

由于中文詞之間沒有間隔標記，所以進行全文檢索時極易產(chǎn)生誤檢索，使查準率偏低。例如，用“華人”一詞去檢索，會使得含有“中華人民共和國”詞匯的文獻被檢索出來；用“民法’’檢索，會把“人民法院”檢索出來。解決這類問題同樣可通過構(gòu)造檢索輔助詞典來完成，而實現(xiàn)這一任務的詞典，稱為“排除詞詞典”。

排除詞詞典的結(jié)構(gòu)為，將檢索用詞(如民法)與欲排除詞(如人民法院、移民法等)關(guān)聯(lián)起來，用于在檢索時消除誤檢。用排除詞詞典排除誤檢的做法有許多，最簡單的方法是將檢索詞在每一文獻中檢索出數(shù)量(檢索詞在文獻中出現(xiàn)次數(shù))與所有欲排除詞在文獻中出現(xiàn)的數(shù)量相比較，若相等，該文獻就被排除，否則為命中。

上一篇: 搜索引擎蜘蛛的基本原理及工作流程

下一篇: 怎樣做好SEO,獲得一個好排名

相關(guān)文章

无遮挡色视频真人免费-国产男女性潮高清免费网站-久久国产精品二国产精品-色老二导航

專注抖音視頻、谷歌推廣20年

什么是全文搜索引擎