技術(shù)觀點(diǎn)

搜索引擎蜘蛛的基本原理及工作流程

發(fā)布時(shí)間：2020-06-23 13:27:50瀏覽次數(shù):

搜索器在工作過程中主要需考慮以下幾個(gè)問題：

(1)Web信息的選擇

在大多數(shù)情況下，搜索器不可能搜集所有Web信息，只能選擇下載其中一部分。這樣，如何下載比較“重要”的Web信息就是一個(gè)很現(xiàn)實(shí)的問題。判斷一個(gè)網(wǎng)頁是否重要的依據(jù)主要有興趣驅(qū)動(dòng)、流行性驅(qū)動(dòng)和位置驅(qū)動(dòng)三個(gè)指標(biāo)。

(2)Web頁面的更新頻率

當(dāng)網(wǎng)頁被下載后，搜索器應(yīng)以一定的頻率對全部網(wǎng)頁進(jìn)行刷新或?qū)W(wǎng)頁重新訪問，其頻率應(yīng)與網(wǎng)頁自身更新的頻率相適應(yīng)，但不是成正比。

(3)減少搜索器對Web服務(wù)器的負(fù)擔(dān)

當(dāng)很多搜索器在工作時(shí)，將大大消耗服務(wù)器資源，對Web服務(wù)器而言是一個(gè)不小的負(fù)擔(dān)，如何減少服務(wù)器負(fù)擔(dān)和避免阻塞也是設(shè)計(jì)搜索器應(yīng)該考慮的問題。例如，有的搜索引擎與網(wǎng)站達(dá)成協(xié)議，只有在網(wǎng)站服務(wù)器端放置特殊標(biāo)記文件，搜索器才采集，有的網(wǎng)站服務(wù)器按照搜索器的要求建立索引文件，搜索器只采集這個(gè)索引文件即可。

(4)并行工作

由于網(wǎng)頁數(shù)量龐大，許多搜索器在多臺機(jī)器上工作，并行下載網(wǎng)頁，從而使得在最短的時(shí)間內(nèi)下載更多的網(wǎng)頁，而這些并行工作的搜索器必須協(xié)同工作，以便使得不同搜索器不會(huì)重復(fù)訪問。并行工作處理的好壞，將直接影響搜索器的效率。

目前的搜索引擎蜘蛛已經(jīng)不在是以前的發(fā)現(xiàn)一張網(wǎng)頁，并收錄。現(xiàn)在網(wǎng)頁的收錄，將比以往更加嚴(yán)格。以前搜索引擎蜘蛛面臨的問題是大部分站點(diǎn)的網(wǎng)頁不太友好，不利于搜索引擎的蜘蛛爬取。而現(xiàn)在的問題，網(wǎng)頁的路徑很友好，但是搜索引擎蜘蛛需要分辨其價(jià)值，從而再?zèng)Q定要不要收錄。也正是這個(gè)原因，讓很多內(nèi)容主要是靠采集但是網(wǎng)站結(jié)構(gòu)很有利于搜索引擎蜘蛛爬行的網(wǎng)站，并沒有得到搜索引擎大量收錄的原因。

通過網(wǎng)站結(jié)構(gòu)、外部鏈接等因素來促進(jìn)搜索引擎的收錄，依然是主要的方法之一。但是相比較而言，現(xiàn)在搜索引擎已經(jīng)不那么依賴這兩者的作用了。所以對SEO來說，難度已經(jīng)明顯增加。

上一篇: 網(wǎng)站分類目錄的作用有哪些

下一篇: 什么是全文搜索引擎

相關(guān)文章

无遮挡色视频真人免费-国产男女性潮高清免费网站-久久国产精品二国产精品-色老二导航

專注抖音視頻、谷歌推廣20年

搜索引擎蜘蛛的基本原理及工作流程