韩国三级中国三级人妇,国产美女视频免费观看网址,丰满熟妇啪啪区日韩久久

^{<blockquote id="jigcq"></blockquote>}

搜索引擎蜘蛛爬蟲原理

發(fā)布日期：2012-07-19

做SEO的都知道網(wǎng)站收錄是靠爬蟲進(jìn)來后，讀取網(wǎng)頁內(nèi)容，從而收錄網(wǎng)站里內(nèi)容，那么，作為一個合格的SEOer，就更應(yīng)該知道，爬蟲是原理了，今天，簡析一下，蜘蛛爬蟲的原理，雖然，網(wǎng)上也有過文章說明，不過，還是簡略地說一下：

　　1、聚焦爬蟲工作原理及關(guān)鍵技術(shù)概述

　　網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序，它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊列。然后，它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL，并重復(fù)上述過程，直到達(dá)到系統(tǒng)的某一條件時停止，另外，所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯，進(jìn)行一定的分析、過濾，并建立索引，以便之后的查詢和檢索;對于聚焦爬蟲來說，這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。

　　相對于通用網(wǎng)絡(luò)爬蟲，聚焦爬蟲還需要解決三個主要問題：

　　(1) 對抓取目標(biāo)的描述或定義;

　　(2) 對網(wǎng)頁或數(shù)據(jù)的分析與過濾;

　　(3) 對URL的搜索策略。

　　抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個部分的算法又是緊密相關(guān)的。

　　2、抓取目標(biāo)描述

　　現(xiàn)有聚焦爬蟲對抓取目標(biāo)的描述可分為基于目標(biāo)網(wǎng)頁特征、基于目標(biāo)數(shù)據(jù)模式和基于領(lǐng)域概念3種。

　　基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。根據(jù)種子樣本獲取方式可分為：

　　(1) 預(yù)先給定的初始抓取種子樣本;

　　(2) 預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本，如Yahoo!分類結(jié)構(gòu)等;

　　(3) 通過用戶行為確定的抓取目標(biāo)樣例，分為：

　　a) 用戶瀏覽過程中顯示標(biāo)注的抓取樣本;

　　b) 通過用戶日志挖掘得到訪問模式及相關(guān)樣本。

　　其中，網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征，也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征等等。

　　現(xiàn)有的聚焦爬蟲對抓取目標(biāo)的描述或定義可以分為基于目標(biāo)網(wǎng)頁特征，基于目標(biāo)數(shù)據(jù)模式和基于領(lǐng)域概念三種。

　　基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。具體的方法根據(jù)種子樣本的獲取方式可以分為：

　　(1)預(yù)先給定的初始抓取種子樣本;

　　(2)預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本，如Yahoo!分類結(jié)構(gòu)等;

　　(3)通過用戶行為確定的抓取目標(biāo)樣例。其中，網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征，也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征，等等。

　　基于目標(biāo)數(shù)據(jù)模式的爬蟲針對的是網(wǎng)頁上的數(shù)據(jù)，所抓取的數(shù)據(jù)一般要符合一定的模式，或者可以轉(zhuǎn)化或映射為目標(biāo)數(shù)據(jù)模式。

　　另一種描述方式是建立目標(biāo)領(lǐng)域的本體或詞典，用于從語義角度分析不同特征在某一主題中的重要程度。

　　3 、網(wǎng)頁搜索策略

　　網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會導(dǎo)致爬蟲的陷入(trapped)問題，目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。

　　4、廣度優(yōu)先搜索策略

　　廣度優(yōu)先搜索策略是指在抓取過程中，在完成當(dāng)前層次的搜索后，才進(jìn)行下一層次的搜索。該算法的設(shè)計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁，一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中。其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用，先用廣度優(yōu)先策略抓取網(wǎng)頁，再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點在于，隨著抓取網(wǎng)頁的增多，大量的無關(guān)網(wǎng)頁將被下載并過濾，算法的效率將變低。

　　相信很多SEOer也知道爬蟲的原因，那么，不知道爬蟲的SEO入門者，可以看看提供的蜘蛛爬行簡析，希望對自己有幫助!

創(chuàng)建網(wǎng)站如此簡單

專屬為客戶提供最有價值的互聯(lián)網(wǎng)設(shè)計方案
策略+創(chuàng)意+設(shè)計+服務(wù)！

1 2 3 4 5

網(wǎng)站策劃 >

網(wǎng)站調(diào)研和競爭分析

網(wǎng)站的策劃和定位
網(wǎng)頁設(shè)計 >

網(wǎng)站頁面?zhèn)€性化設(shè)計

W3C標(biāo)準(zhǔn)化前端交互技術(shù)開發(fā)
視覺還原 >

定制化HTML頁面嵌套

內(nèi)容管理系統(tǒng)定制開發(fā)
優(yōu)化推廣 >

SEO搜索引擎優(yōu)化

SEM搜索引擎營銷
媒體營銷 >

MMM移動媒體營銷

社會化媒體活動策劃

首页_内蒙古明丰光电发展有限公司,九九精品成人免费国产片,亚洲第一卡二新区乱码,欧美丰满大黑帍在线播放},精品日本免费一区二区三区

搜索引擎蜘蛛爬蟲原理

在線客服