發(fā)布日期:2012-07-19
做SEO的都知道網(wǎng)站收錄是靠爬蟲進(jìn)來后,讀取網(wǎng)頁內(nèi)容,從而收錄網(wǎng)站里內(nèi)容,那么,作為一個合格的SEOer,就更應(yīng)該知道,爬蟲是原理了,今天,簡析一下,蜘蛛爬蟲的原理,雖然,網(wǎng)上也有過文章說明,不過,還是簡略地說一下:
1、 聚焦爬蟲工作原理及關(guān)鍵技術(shù)概述
網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時停止,另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。
相對于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲還需要解決三個主要問題:
(1) 對抓取目標(biāo)的描述或定義;
(2) 對網(wǎng)頁或數(shù)據(jù)的分析與過濾;
(3) 對URL的搜索策略。
抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個部分的算法又是緊密相關(guān)的。
2、 抓取目標(biāo)描述
現(xiàn)有聚焦爬蟲對抓取目標(biāo)的描述可分為基于目標(biāo)網(wǎng)頁特征、基于目標(biāo)數(shù)據(jù)模式和基于領(lǐng)域概念3種。
基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。根據(jù)種子樣本獲取方式可分為:
(1) 預(yù)先給定的初始抓取種子樣本;
(2) 預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;
(3) 通過用戶行為確定的抓取目標(biāo)樣例,分為:
a) 用戶瀏覽過程中顯示標(biāo)注的抓取樣本;
b) 通過用戶日志挖掘得到訪問模式及相關(guān)樣本。
其中,網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征等等。
現(xiàn)有的聚焦爬蟲對抓取目標(biāo)的描述或定義可以分為基于目標(biāo)網(wǎng)頁特征,基于目標(biāo)數(shù)據(jù)模式和基于領(lǐng)域概念三種。
基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。具體的方法根據(jù)種子樣本的獲取方式可以分為:
(1)預(yù)先給定的初始抓取種子樣本;
(2)預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;
(3)通過用戶行為確定的抓取目標(biāo)樣例。其中,網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征,等等。
基于目標(biāo)數(shù)據(jù)模式的爬蟲針對的是網(wǎng)頁上的數(shù)據(jù),所抓取的數(shù)據(jù)一般要符合一定的模式,或者可以轉(zhuǎn)化或映射為目標(biāo)數(shù)據(jù)模式。
另一種描述方式是建立目標(biāo)領(lǐng)域的本體或詞典,用于從語義角度分析不同特征在某一主題中的重要程度。
3 、網(wǎng)頁搜索策略
網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會導(dǎo)致爬蟲的陷入(trapped)問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。
4、廣度優(yōu)先搜索策略
廣度優(yōu)先搜索策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。該算法的設(shè)計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中。其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁,再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點在于,隨著抓取網(wǎng)頁的增多,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。
相信很多SEOer也知道爬蟲的原因,那么,不知道爬蟲的SEO入門者,可以看看提供的蜘蛛爬行簡析,希望對自己有幫助!
創(chuàng)建網(wǎng)站 如此簡單
專屬為客戶提供最有價值的互聯(lián)網(wǎng)設(shè)計方案
策略+創(chuàng)意+設(shè)計+服務(wù)!
網(wǎng)站策劃 >
網(wǎng)站調(diào)研和競爭分析
網(wǎng)站的策劃和定位
網(wǎng)頁設(shè)計 >
網(wǎng)站頁面?zhèn)€性化設(shè)計
W3C標(biāo)準(zhǔn)化前端交互技術(shù)開發(fā)
視覺還原 >
定制化HTML頁面嵌套
內(nèi)容管理系統(tǒng)定制開發(fā)
優(yōu)化推廣 >
SEO搜索引擎優(yōu)化
SEM搜索引擎營銷
媒體營銷 >
MMM移動媒體營銷
社會化媒體活動策劃
我們的實力
營銷中心
服務(wù)內(nèi)容
案例展示