搜索器在工作過程中主要需考慮以下幾個問題:
(1)Web信息的選擇
在大多數情況下,搜索器不可能搜集所有Web信息,只能選擇下載其中一部分。這樣,如何下載比較“重要”的Web信息就是一個很現實的問題。判斷一個網頁是否重要的依據主要有興趣驅動、流行性驅動和位置驅動三個指標。
(2)Web頁面的更新頻率
當網頁被下載后,搜索器應以一定的頻率對全部網頁進行刷新或對網頁重新訪問,其頻率應與網頁自身更新的頻率相適應,但不是成正比。
(3)減少搜索器對Web服務器的負擔
當很多搜索器在工作時,將大大消耗服務器資源,對Web服務器而言是一個不小的負擔,如何減少服務器負擔和避免阻塞也是設計搜索器應該考慮的問題。例如,有的搜索引擎與網站達成協議,只有在網站服務器端放置特殊標記文件,搜索器才采集,有的網站服務器按照搜索器的要求建立索引文件,搜索器只采集這個索引文件即可。
(4)并行工作
由于網頁數量龐大,許多搜索器在多臺機器上工作,并行下載網頁,從而使得在最短的時間內下載更多的網頁,而這些并行工作的搜索器必須協同工作,以便使得不同搜索器不會重復訪問。并行工作處理的好壞,將直接影響搜索器的效率。
目前的搜索引擎蜘蛛已經不在是以前的發現一張網頁,并收錄。現在網頁的收錄,將比以往更加嚴格。以前搜索引擎蜘蛛面臨的問題是大部分站點的網頁不太友好,不利于搜索引擎的蜘蛛爬取。而現在的問題,網頁的路徑很友好,但是搜索引擎蜘蛛需要分辨其價值,從而再決定要不要收錄。也正是這個原因,讓很多內容主要是靠采集但是網站結構很有利于搜索引擎蜘蛛爬行的網站,并沒有得到搜索引擎大量收錄的原因。
通過網站結構、外部鏈接等因素來促進搜索引擎的收錄,依然是主要的方法之一。但是相比較而言,現在搜索引擎已經不那么依賴這兩者的作用了。所以對SEO來說,難度已經明顯增加。