之前在站上看到這篇關(guān)于搜索引擎原創(chuàng)識(shí)別和權(quán)重繼承算法分析的文章,寫(xiě)的不錯(cuò),但是普通學(xué)生很難理解,有些算法就不提了。
對(duì)于原始識(shí)別,可以提取原文中提到的關(guān)鍵詞,然后使用md5或頻率比較,但實(shí)際應(yīng)用可能不是很有效。在搜索引擎對(duì)原始內(nèi)容的識(shí)別中,根據(jù)關(guān)鍵詞詞頻(tf)來(lái)看,是閑置低級(jí),也就是內(nèi)容太多,容易誤判。因此,需要另一個(gè)指標(biāo)來(lái)判斷。這種方法是切片比較,按照固定的步長(zhǎng)對(duì)內(nèi)容進(jìn)行切片,比較其相似度,會(huì)更接近真實(shí)結(jié)果。切片比較可以很好地識(shí)別段落中斷的偽原創(chuàng)技術(shù)。
頁(yè)面降噪技術(shù)被搜索引擎廣泛使用。對(duì)于標(biāo)題文本的大部分內(nèi)容,可以采用降噪技術(shù),使內(nèi)容更接近真實(shí)內(nèi)容。然后在seo中,需要在文本中間加入干擾因素,打斷搜索引擎的前置詞和切片。添加的內(nèi)容可以成為錨文本鏈接或相關(guān)段落。同時(shí),這種技術(shù)也能打亂搜索引擎的矢量化。
原文中也提出了站內(nèi)權(quán)重繼承的問(wèn)題。站內(nèi)頁(yè)面權(quán)重繼承沒(méi)有原作者說(shuō)的那么簡(jiǎn)單,權(quán)重分布也不是簡(jiǎn)單的平均分布。同時(shí),為了防止網(wǎng)站在短時(shí)間內(nèi)通過(guò)制造大量?jī)?nèi)鏈來(lái)提高自身的權(quán)重,在網(wǎng)站內(nèi)部的權(quán)重傳遞過(guò)程中增加了一個(gè)阻尼基,一般為0.15。也就是說(shuō),如果一個(gè)頁(yè)面有100個(gè)導(dǎo)出鏈接,其中15個(gè)不會(huì)參與權(quán)重傳遞。根據(jù)鏈接出現(xiàn)的位置,鏈接在每個(gè)位置得到的權(quán)重繼承是不同的;根據(jù)鏈接使用的標(biāo)簽不同,每個(gè)鏈接得到的權(quán)重繼承也不同;根據(jù)不同的關(guān)聯(lián)度,每個(gè)環(huán)節(jié)得到的權(quán)重繼承是不同的。這里補(bǔ)充的是,由于去噪或阻尼基數(shù),某些位置的鏈接可能被優(yōu)先消除。
權(quán)重繼承算法是一個(gè)非常復(fù)雜的公式,類(lèi)似于谷歌pr計(jì)算公式。原文還提到了一個(gè)對(duì)漢語(yǔ)語(yǔ)法的應(yīng)用。其實(shí)搜索引擎并不太關(guān)注中文語(yǔ)法,只需要找出stopword,這里的stopword可以是任意詞性,也可以是任意語(yǔ)法單位。搜索引擎把提取的詞當(dāng)作名詞,而偏向于褒義詞。因?yàn)橛脩?hù)的搜索動(dòng)作是中性的,不會(huì)給搜索關(guān)鍵詞賦予感情色彩。也許以后會(huì)有一個(gè)情感搜索引擎,讓你選擇搜索時(shí)的情感狀態(tài),返回不同的結(jié)果,但現(xiàn)在看起來(lái)有些理想化。
搜索引擎雖然不區(qū)分詞性,但確實(shí)區(qū)分語(yǔ)氣。因?yàn)樾那榭梢耘袛嘤脩?hù)的需求。當(dāng)你搜索糖果時(shí),搜索引擎無(wú)法判斷你是在尋找美味的糖果、一個(gè)品牌、糖果的功能等等。但是當(dāng)你搜索糖果的時(shí)候,搜索引擎可以判斷出你的需求非常旺盛。也許你在尋找最好的糖果,也許是最貴的糖果,或者是最丑的糖果,等等。
這里很難理解,因?yàn)椤白詈贸缘奶枪边@個(gè)詞里面包含了形容詞“好吃”,但是我前面說(shuō)過(guò),搜索引擎不能區(qū)分詞性,只能區(qū)分語(yǔ)氣。在這里,“最”代表的是語(yǔ)氣,“好吃”只是作為名詞對(duì)待。可以百度“好糖果”和“好糖果”??纯窗俣鹊慕Y(jié)果就能發(fā)現(xiàn)這個(gè)問(wèn)題。排名靠前的標(biāo)題通常是帶有疑問(wèn)或強(qiáng)調(diào)語(yǔ)氣的標(biāo)題。