思億歐曾經討論過PageRank算法和HITS算法,同時也提到了Google,因為它是唯一一個使用PageRank算法的搜索引擎。雖然各種排序算法都是保密的,但可以肯定的是,這些算法一定比我們所討論的更為復雜。很可能,大部分搜索引擎都采用了某種基于鏈接的排序算法,吸納了PageRank算法和HITS算法的精華,同時也使用其他的數據源,這些數據源中應該包含任何具體查詢與網頁文本的匹配程度;目標網頁的更新頻率(即網頁所提供的信息的新鮮度);甚至可能包括用戶輸入查詢后,在搜索引擎返回的結果中點擊鏈接的頻度。下面基于對PageRank算法和HITS算法的分析,給出了關于如何提高網站對搜索引擎的可見性的幾點建議。
·網站應該設計成這樣:搜索引擎能夠從其首頁開始爬行所有網頁,且能夠從中找到標準的HTML鏈接。
·每個網頁的HTML文件中應含有與它們主題內容相關的詞語,尤其是用戶可能用作檢索詞的那些詞語。
·應盡可能早的創建網站,在網頁的索引和排序中,網頁年齡是很重要的。PageRank算法對較老的網頁有利,搜索引擎不大容易發現較新的網頁,因為新網頁的人鏈較少。
·網站的URL應盡可能保持不變。URL的改變將會導致死鏈,這就意味著要失去許多訪問者,因為他們無法沿著死鏈訪問到該網站,同時PageRank值也會流失。
·網站應盡量獲得其他網站的入鏈,尤其是流行網站,如Yahoo!。在網站中增添有用的信息是促進其他網站鏈向該網站的一種較為合適的方法,因為網站的入鏈數有助于提高網站的PageRank值。
·網站應盡量獲得具有相同主題的其他網站的人鏈。如HITS算法所示,相關鏈接對于提高網站在具體主題領域中的排名是很有幫助的。
·不要為了提高PageRank值而舞弊。例如,創建假網頁以增加該網站的人鏈數,或者用其他方法來創建大量的鏈接,如果這樣,一旦被發現,搜索引擎將永遠不再索引該網站。