国产精品国产三级国产a,久久精品国产福利国产秒,99热精品在线播放

觸屏版
全國服務(wù)熱線：0571-87205688

價格查詢批量查詢一鍵轉(zhuǎn)入

查詢

或者

立即發(fā)布需求

昵稱：川藏線。

接單：2206 關(guān)注TA

達標率 0%

博文分類

揭秘百度谷歌識別偽原創(chuàng)的算法

作者：川藏線。 瀏覽：377次發(fā)布時間：2018-02-01

評論

贊0

首先我寫的這篇文章完全源自本人長期觀察總結(jié)，如果有何不妥請指正。畢竟我研究SEO也有一段時間，雖然說SEO的最高境界是忘記SEO，但是SEO技術(shù)也還是非常有趣的，我研究SEO技術(shù)純粹是個人興趣，寫這篇文章也是給各位站長做一個很好的參考。

第一，搜索引擎會過濾“的，了，呢，啊”之類的重復(fù)率非常之高的對排名無幫助的無用詞語。

第二，這里要談為什么有時候轉(zhuǎn)換近義詞無效。從這里開始就算是我個人的經(jīng)驗總結(jié)了。既然市場上有一堆偽原創(chuàng)工具能夠?qū)⒃~語偽原創(chuàng)比如將“電腦”偽原創(chuàng)為“計算機”，那么有什么理由不相信強大的搜索引擎不會偽原創(chuàng)？所以肯定的，搜索引擎一定會近義詞偽原創(chuàng)，當搜索引擎遇到“電腦”和“計算機”時，會將他們自動轉(zhuǎn)換這里姑且假設(shè)為A，所以很多情況下的近義詞偽原創(chuàng)不收錄的原因。

第三，這里要談為什么有時候不僅近義詞轉(zhuǎn)換了并且打亂句子與段落依然無效。當搜索引擎過濾掉無用詞，并將各類近義詞轉(zhuǎn)化為A，B，C，D后開始提取出這個頁面最關(guān)鍵的幾個詞語A，C，E（這里舉個例子，實際可能提取的關(guān)鍵字不是ACE三個而是1個到幾十個都是說不定的）。并且將這些詞進行指紋記錄。這樣也就是說，近義詞轉(zhuǎn)換過的并且段落打亂過的文章和原文對于搜索引擎來說是會認為一模一樣的。

第四，這段更深層次解釋為什么幾篇文章段落重組的文章依然可能會被搜索引擎識別出。首先既然百度能夠生成指紋自然也能解碼指紋，段落重組的文章不過是重要關(guān)鍵字的增加或者減少，這樣比如有兩篇文章第一篇重要關(guān)鍵字是ABC，而第二篇是AB，那么搜索引擎就可能利用自己一個內(nèi)部相似識別的算法，如果相差的百分數(shù)在某個值以下就放出文章并且給予權(quán)重，如果相差的百分數(shù)高于某個值那么就會判斷為重復(fù)文章從而不放出快照，也不給予權(quán)重。這也就是為什么幾篇文章段落重組的文章依然可能會被搜索引擎識別出的原因。

第五，我要解釋下為什么有些偽原創(chuàng)文章仍然可以被收錄的很好。我上面的推理只是對于百度識別偽原創(chuàng)算法的大致框架，實際上谷歌百度對于識別偽原創(chuàng)的工作要更加龐大并且復(fù)雜的多，谷歌一年就會改變兩百次算法足以看出算法的復(fù)雜性。為什么某些偽原創(chuàng)的文章依然可以被收錄的很好。只有兩個原因：

1.網(wǎng)站自身權(quán)重高，哪怕不為原創(chuàng)照搬別人的文章還是百分之百會被收錄給予權(quán)重。

2.搜索引擎絕對不可能完美到過濾所有偽原創(chuàng)，這是不可能的，就好像人工智能的圖靈永遠無法完美到擁有人類的情緒一樣。

個人建議：

1）各位做垃圾站群的朋友們注意了，你們在可以撈一筆的時候就盡情撈一筆吧。但是也希望你們能夠考慮下今后是不是有別的方向可以做？如果百度一下子更改某些算法使得判斷偽原創(chuàng)更智能，哪怕是一些細小的變動也可能就是你們的滅頂之災(zāi)吧。另外今年谷歌也對垃圾站宣戰(zhàn)了，呵呵你們自己看吧。

2）各位老老實實寫原創(chuàng)的站長們，你們絕對選對路了。但是同時也注意下自己的版權(quán)問題哦。

上一篇：canonical詳解 下一篇：網(wǎng)站優(yōu)化內(nèi)鏈建設(shè)時間與技巧

評論(0人參與，0條評論)

發(fā)布評論

博文分類

揭秘百度谷歌識別偽原創(chuàng)的算法

猜你喜歡

評論(0人參與，0條評論)

最新評論