首页_内蒙古明丰光电发展有限公司,九九精品成人免费国产片,亚洲第一卡二新区乱码,欧美丰满大黑帍在线播放},精品日本免费一区二区三区

18680321590

搜索引擎蜘蛛爬蟲原理

發(fā)布日期:2012-07-19

做SEO的都知道網(wǎng)站收錄是靠爬蟲進(jìn)來后,讀取網(wǎng)頁內(nèi)容,從而收錄網(wǎng)站里內(nèi)容,那么,作為一個合格的SEOer,就更應(yīng)該知道,爬蟲是原理了,今天,簡析一下,蜘蛛爬蟲的原理,雖然,網(wǎng)上也有過文章說明,不過,還是簡略地說一下:

 

  1、 聚焦爬蟲工作原理及關(guān)鍵技術(shù)概述

  網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時停止,另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。

  相對于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲還需要解決三個主要問題:

  (1) 對抓取目標(biāo)的描述或定義;

  (2) 對網(wǎng)頁或數(shù)據(jù)的分析與過濾;

  (3) 對URL的搜索策略。

  抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個部分的算法又是緊密相關(guān)的。

  2、 抓取目標(biāo)描述

  現(xiàn)有聚焦爬蟲對抓取目標(biāo)的描述可分為基于目標(biāo)網(wǎng)頁特征、基于目標(biāo)數(shù)據(jù)模式和基于領(lǐng)域概念3種。

  基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。根據(jù)種子樣本獲取方式可分為:

  (1) 預(yù)先給定的初始抓取種子樣本;

  (2) 預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;

  (3) 通過用戶行為確定的抓取目標(biāo)樣例,分為:

  a) 用戶瀏覽過程中顯示標(biāo)注的抓取樣本;

  b) 通過用戶日志挖掘得到訪問模式及相關(guān)樣本。

  其中,網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征等等。

  現(xiàn)有的聚焦爬蟲對抓取目標(biāo)的描述或定義可以分為基于目標(biāo)網(wǎng)頁特征,基于目標(biāo)數(shù)據(jù)模式和基于領(lǐng)域概念三種。

  基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。具體的方法根據(jù)種子樣本的獲取方式可以分為:

  (1)預(yù)先給定的初始抓取種子樣本;

  (2)預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;

  (3)通過用戶行為確定的抓取目標(biāo)樣例。其中,網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征,等等。

  基于目標(biāo)數(shù)據(jù)模式的爬蟲針對的是網(wǎng)頁上的數(shù)據(jù),所抓取的數(shù)據(jù)一般要符合一定的模式,或者可以轉(zhuǎn)化或映射為目標(biāo)數(shù)據(jù)模式。

  另一種描述方式是建立目標(biāo)領(lǐng)域的本體或詞典,用于從語義角度分析不同特征在某一主題中的重要程度。

  3 、網(wǎng)頁搜索策略

  網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會導(dǎo)致爬蟲的陷入(trapped)問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。

  4、廣度優(yōu)先搜索策略

  廣度優(yōu)先搜索策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。該算法的設(shè)計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中。其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁,再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點在于,隨著抓取網(wǎng)頁的增多,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。

  相信很多SEOer也知道爬蟲的原因,那么,不知道爬蟲的SEO入門者,可以看看提供的蜘蛛爬行簡析,希望對自己有幫助!

上一篇:長尾關(guān)鍵詞挖掘方法盤點

下一篇:SEO優(yōu)化之長尾關(guān)鍵詞選擇

創(chuàng)建網(wǎng)站 如此簡單

專屬為客戶提供最有價值的互聯(lián)網(wǎng)設(shè)計方案
策略+創(chuàng)意+設(shè)計+服務(wù)!

1 2 3 4 5
  • 網(wǎng)站策劃  >

    網(wǎng)站調(diào)研和競爭分析

    網(wǎng)站的策劃和定位

  • 網(wǎng)頁設(shè)計  >

    網(wǎng)站頁面?zhèn)€性化設(shè)計

    W3C標(biāo)準(zhǔn)化前端交互技術(shù)開發(fā)

  • 視覺還原  >

    定制化HTML頁面嵌套

    內(nèi)容管理系統(tǒng)定制開發(fā)

  • 優(yōu)化推廣  >

    SEO搜索引擎優(yōu)化

    SEM搜索引擎營銷

  • 媒體營銷  >

    MMM移動媒體營銷

    社會化媒體活動策劃

展開