首页_内蒙古明丰光电发展有限公司,九九精品成人免费国产片,亚洲第一卡二新区乱码,欧美丰满大黑帍在线播放},精品日本免费一区二区三区

18680321590

百度和谷歌的中文分詞技術(shù)優(yōu)勢對比分析

發(fā)布日期:2012-07-19

中文分詞是百度和谷歌的核心技術(shù)之一,因此不會將細(xì)節(jié)公之于。我只能利用黑盒方法進(jìn)行推導(dǎo),也即通過輸入檢索提問,查看結(jié)果情況,并通過兩個搜索引擎都具備的網(wǎng)頁快照功能查看各自對檢索提問的分詞情況。如何優(yōu)化網(wǎng)站關(guān)鍵詞要先了解搜索引擎的分詞技術(shù)。
  第一,推導(dǎo)百度的中文分詞技術(shù)
  第1個例子說明,如果對檢索提問用引號做精確檢索,百度對其不進(jìn)行分詞運(yùn)算。例2說明,如果輸入用空格進(jìn)行分割的若干個子字符串,百度對其自動做分詞處理(如果用標(biāo)點符號分割,也會做自動分詞處理)。例3、6、7、8、10等都說明百度對檢索詞會進(jìn)行多種切分方式,并且首先是不進(jìn)行切分,直接匹配,如果有結(jié)果則返回,并排在檢索結(jié)果最前面;然后再按照不同形式切分之后再去匹配。
  例4對“比爾蓋茨”的檢索表明,百度有專有名詞庫,例5對“旭日陽剛”的檢索表明,百度對新詞收錄較快。例9“旭日陽剛才”的分詞結(jié)果為“旭日陽剛/才”也說明,百度對新詞能夠識別。
  例11“大長今天天向上”,百度能夠識別出“大長今/天天向上”,“大長今”為一韓劇名,“天天向上”為一綜藝節(jié)目,百度均能正確地識別,表明其詞庫收詞范圍很廣,收詞量很多。例7、8說明,百度對在分詞時不會忽略“的”、“和”這些意義不大的字(即禁用詞),可以做更多的嘗試,百度對“了”、“嗎”等都不會忽略,仍作為檢索詞進(jìn)行分詞。
  再探討百度是正向最大匹配還是逆向最大匹配。例7中,對“走路和氣質(zhì)”可以分出“走路/和/氣質(zhì)”,這種結(jié)果像是逆向最大匹配法,再看例12,“分居民生活水平”,如果逆向最大匹配法的話應(yīng)該是應(yīng)該分為“分/居民/生活水平”,但事實上百度對這個檢索提問的分詞結(jié)果并不如此,在這個例子上看似為正向分詞。因此,百度的分詞不是單純的正向最大匹配或者逆向最大匹配,采用的應(yīng)該是雙向最大匹配法。
  通過有多種劃分方式的例子(比如例8),可以看出,百度首先是不進(jìn)行分詞,得到“朱德的母親”,然后再識別出專有名詞或新詞,剩余部分又按照先不切分的方式,得到“朱德/的母親”,然后用最少切分法原則,并且用到了3元交叉切分法得到了“朱德的/的母親”。
  第二,推導(dǎo)谷歌的中文分詞技術(shù)
  例1說明,對于引號中的檢索提問,谷歌不進(jìn)行拆分;例2說明,用空格分開的子字符串,谷歌自動做分詞處理(如果用標(biāo)點符號分割,效果也一樣)。
  例3、4、5、6表明,谷歌對于專有名詞和新詞識別能力較差,對“比爾蓋茨”、“旭日陽剛”等都進(jìn)行了分詞處理,甚至連“忐忑”都劃分為了“忐/忑”,“圖書館”劃分為“圖書/館”,“中醫(yī)藥”劃分為“中/醫(yī)藥”,說明谷歌的詞庫較小。
  例7、8說明,谷歌在分詞時,會對檢索提問中意義不大的字如“的”、“和”忽略,當(dāng)作禁用詞,然后再進(jìn)行分詞。
  例9、10、11、12都印證了谷歌采取的是逆向最大匹配法,并印證了對專有名詞和新詞識別能力差。在12個例子中涉及的專有名詞和新詞中,只有“朱德”被正確識別。
  總結(jié)
  通過上述分析,我對百度和谷歌中文分詞技術(shù)做一比較,主要有以下四點:
  (1)百度和谷歌對引號中的檢索提問以及空格等分割的檢索提問的分詞規(guī)則相同;
  (2)對未登錄詞的識別能力上,百度明顯占優(yōu)勢;
  (3)谷歌有禁用詞消除功能,會忽略掉那些沒有檢索意義的常見連詞、介詞,這樣可以提高檢索速度,但是有時會去掉可能有檢索意義的詞的情況,百度則會將這些字符統(tǒng)一作為檢索詞進(jìn)行分詞;
  (4)谷歌采用的是較為單一的逆向最大匹配法則,而百度則同時做出多種分詞方式,首先不拆分進(jìn)行查找,然后先識別專有名詞和新詞,再對其余部分進(jìn)行拆分,采用雙向最大匹配方式。
  判斷一個系統(tǒng)的中文分詞功能好壞,主要在于消歧功能和對未登錄詞識別功能。并且優(yōu)秀的分詞策略應(yīng)該是盡量不拆分,需要拆分時,先把長的拆成中的,如果結(jié)果還是少,再把中的拆成短的?;谶@些因素,可得出結(jié)論,百度的關(guān)鍵詞優(yōu)化中文分詞技術(shù)要優(yōu)于谷歌。
推薦閱讀:

如何判斷網(wǎng)站關(guān)鍵詞的難易程度及關(guān)鍵詞熱度?

網(wǎng)站優(yōu)化不僅要做到知己還要分析競爭對手

如何避免網(wǎng)站搜索引擎二次審核的關(guān)鍵因素

SEO優(yōu)化人員必知的特殊的高級搜索指令集合

SEO優(yōu)化前期關(guān)鍵詞技術(shù)分析和選擇

上一篇:新手SEOer要謹(jǐn)記的八不要原則

下一篇:SEO優(yōu)化人員必知的特殊的高級搜索指令集合

創(chuàng)建網(wǎng)站 如此簡單

專屬為客戶提供最有價值的互聯(lián)網(wǎng)設(shè)計方案
策略+創(chuàng)意+設(shè)計+服務(wù)!

1 2 3 4 5
  • 網(wǎng)站策劃  >

    網(wǎng)站調(diào)研和競爭分析

    網(wǎng)站的策劃和定位

  • 網(wǎng)頁設(shè)計  >

    網(wǎng)站頁面?zhèn)€性化設(shè)計

    W3C標(biāo)準(zhǔn)化前端交互技術(shù)開發(fā)

  • 視覺還原  >

    定制化HTML頁面嵌套

    內(nèi)容管理系統(tǒng)定制開發(fā)

  • 優(yōu)化推廣  >

    SEO搜索引擎優(yōu)化

    SEM搜索引擎營銷

  • 媒體營銷  >

    MMM移動媒體營銷

    社會化媒體活動策劃

展開