|
网站SEO优化之Google分(fèn)词(cí)法 |
|
Google分(fèn)词算法值得我(wǒ)们好好研(yán)究一(yī)下。Google的搜索结果页(SERP)与搜索关键字的相关性,明(míng)显大于百度,这是因为(wéi)Google把搜索关键字(zì)都拆分成(chéng)最基(jī)本(běn)的词组和(hé)单字后,在根(gēn)据相关性去匹配数据库的中内(nèi)容,而且Google拆分(fèn)后的最基本词组(zǔ),完(wán)全(quán)是根据词典里的词组匹配的,也是说它符合(hé)国家(jiā)语言文字工作委员会的规范和标准的,这只限于普通词组(公众人名、著名品牌名(míng))。
实例1:测(cè)试Google是否有专业名词库
在Google搜索(suǒ)“搜索引擎关键字”,Google会把这(zhè)个关键字短语拆分为“搜索—引擎—关键—字”,这是因为“搜索引(yǐn)擎”和“关键字”都是网络专业词组,可能Google没有(yǒu)专业词组库,所以就被拆分成了“搜(sōu)索—引擎—关键—字”。
实(shí)例2:测试(shì)Google拆分长关键字
在(zài)Google搜索“他舅WAP流量统计分析”,Google把这个(gè)关键字短语拆(chāi)分为“他—舅—wap—流量(liàng)—统计—分析”六部分,“WAP”是一个英文词组,包括Google和其他搜索引擎一般是不拆分英文词组(zǔ)的(就算它不是(shì)英文单词),“流量”、“统(tǒng)计”、“分析”都是(shì)符合国家语言(yán)规范的标准词组,“他(tā)舅”只是中国老(lǎo)百姓(xìng)一个(gè)口头称谓用语,不符合国(guó)家语言规范,在词典中根(gēn)本就查不(bú)到这,所以Google就把“他舅”拆分(fèn)成了两个(gè)单(dān)字。
实(shí)例3:测试品(pǐn)牌名是否被Google收(shōu)录为词组
在Google搜索“海(hǎi)尔冰箱”、“惠(huì)普电(diàn)脑”、“华(huá)为(wéi)通讯”、“美的电器”,“五粮液酒”,“夏(xià)利汽(qì)车”、“北京同(tóng)仁堂”这七个都是著名的品(pǐn)牌,结果是“海尔”、“惠普”、“华为”、“五粮液”、“同仁(rén)堂”都(dōu)是单(dān)独的词组,没(méi)有被(bèi)拆分(fèn)为单字,“夏利”、“美的”这(zhè)两个品牌却被(bèi)拆分(fèn)成(chéng)了(le)单字(zì)。不是所有(yǒu)品牌都能(néng)被Google作为一个词(cí)组(zǔ)收(shōu)录进品(pǐn)牌词库(kù),Google有自己的收录标准的。
实例(lì)4:测试Google是否(fǒu)会拆(chāi)分成语
下面我们搜索一(yī)下韩乔生的经典名(míng)句“迅雷不(bú)及掩耳(ěr)之势”和“山清水(shuǐ)秀丽”,结果(guǒ)“迅雷不及掩耳之势”这个(gè)短句(jù)被拆分成了“迅雷—不及—掩(yǎn)耳盗铃(líng)—之(zhī)—势”,“迅雷”是一个符合汉语言规范的标准词组,不是(shì)指下载工具(jù)那个“迅雷”,“不及”也是(shì)一个(gè)词组,“掩耳盗铃”也是符合(hé)国家(jiā)语言(yán)规范的成语,“之势”不是标准词(cí)组,所以就(jiù)被拆分为两(liǎng)个单字。“山清水秀丽”被拆分为了“山清水秀—丽”,“山清水(shuǐ)秀”是一个成语(yǔ)没有(yǒu)拆分。Google把成语作(zuò)为几个基本词组,不会进一步拆分。
实例5:测试普通之间是否有(yǒu)权重高(gāo)低(dī)之分
搜索(suǒ)“山河水灾”这个关(guān)键字(zì)短语,结果(guǒ)Google拆分为“山河”和(hé)“水灾”两(liǎng)个词组;然后搜素(sù)“山河(hé)水灾(zāi)情”这个关(guān)键(jiàn)字(zì)短语,结果Google拆分为“山河”、“水”、“灾情”三部分,“水”字没(méi)有和(hé)“灾”组(zǔ)成词组,反而“灾(zāi)”和(hé)“情”组成了词组,这说“灾情(qíng)”这个(gè)词的权重高于“水灾”的权重。这(zhè)说明词(cí)组之间也是(shì)有权重之分(fèn)的。
根据实例(lì)测(cè)试推断:Google会把搜索的关键字(短语)拆分为最基本(běn)的词组,这些普通词(cí)组都是符合汉(hàn)语言规(guī)范的标准词组,不像百度那样收录(lù)“人造名词”。Google的词组(zǔ)大致(zhì)可(kě)分为(wéi)普通(tōng)名(míng)词、地(dì)名、人(rén)名等几类,关键字(短语)都是从(cóng)左向右,按权重高低拆分。这些(xiē)词组权重从低(dī)到高(gāo)依次如下:人名<普通词组<地名<成语<领导人名字(zì)。进一步测试(shì)品(pǐn)牌名(míng)和人(rén)名的权重是一样(yàng),都是最低的,这只是一个大致顺序,因为同一类词组还会根据日常(cháng)使用的频(pín)率进一步(bù)的分级,每一级(jí)的分配不同的权重(chóng),所以同一类词组之间也有权重高低之分(fèn)。
|
|