日志不單看狀態(tài)碼還要關(guān)注體驗(yàn)




什么是百度蜘蛛抓取體驗(yàn)?zāi)?良好的代碼結(jié)構(gòu),良好的URL結(jié)構(gòu)。相信很多站長都有采集經(jīng)驗(yàn),很多CMS都帶有采集功能。
百度蜘蛛抓取體驗(yàn)和你寫采集規(guī)則是一樣的,一個(gè)網(wǎng)站有良好的代碼結(jié)構(gòu),良好的URL結(jié)構(gòu),你可以輕易寫出采集規(guī)則,順利完成這個(gè)網(wǎng)站內(nèi)容采集工作。
URL,一個(gè)網(wǎng)站的URL如果很復(fù)雜,經(jīng)過幾次302或301跳轉(zhuǎn)后才能到達(dá)目的頁面。這樣的URL,如果你要用CMS寫采集規(guī)則,是不是增加了采集規(guī)則的難度。有些URL甚至通過JS跳轉(zhuǎn),才能到達(dá)內(nèi)容頁面,這些URL鏈接,請問該如何寫采集規(guī)則。
代碼結(jié)構(gòu),一個(gè)網(wǎng)站的列表頁面和內(nèi)容頁面,代碼非常復(fù)雜。有可能是word編輯的內(nèi)容,直接復(fù)制到網(wǎng)站后臺編輯器,直接發(fā)布。一個(gè)列表頁面,可能是
JS,iframe嵌入頁面,這樣的代碼結(jié)構(gòu),該如何寫采集規(guī)則?你可能就直接放棄采集這個(gè)網(wǎng)站。百度蜘蛛也一樣,可能計(jì)劃來1萬次抓取的,由于分析效率
太低,它可能只能來3000次。
如果SEOER有編程經(jīng)驗(yàn),通過對代碼復(fù)雜的分析,針對網(wǎng)站寫出采集規(guī)則是沒問題的。那么,百度蜘蛛呢?百度蜘蛛該如何來抓取這些內(nèi)容,百度蜘蛛可不會針對某個(gè)網(wǎng)站寫采集規(guī)則。
前幾天Loghao一個(gè)蜘蛛分析案例,他網(wǎng)站的百度蜘蛛狀態(tài)碼40%都是302?筆者仔細(xì)看了他網(wǎng)站的鏈接結(jié)構(gòu),都是/xxxx結(jié)尾的,訪問后鏈接后
面自動(dòng)加了/,變?yōu)?xxxx/。百度蜘蛛訪問/xxxx后通過302跳轉(zhuǎn),到了/xxxx/。請問,這樣的跳轉(zhuǎn)訪問,百度蜘蛛抓取體驗(yàn)是怎么樣的?答案
很明確,造成了蜘蛛多訪問一次,如果這個(gè)網(wǎng)站有100萬頁面,蜘蛛就會多訪問100萬次,才能抓取到目標(biāo)內(nèi)容。
所以,一個(gè)良好的URL規(guī)則和代碼規(guī)則,可以很大程度提高百度抓取體驗(yàn),提高收錄幾率。