網(wǎng)站Robots.txt協(xié)議知多少




網(wǎng)站Robots.txt文件,是網(wǎng)站與搜索引擎交流的通用協(xié)議,通過Robots協(xié)議的設(shè)置告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓?。阂环矫婵梢宰鼍W(wǎng)站安全的防護(hù),更重要的是用來做優(yōu)化,減少無(wú)效頁(yè)面的收錄,提升站點(diǎn)的排名效果。
在對(duì)客戶的SEO診斷過程中,會(huì)經(jīng)常遇到由于技術(shù)性的錯(cuò)誤撰寫,導(dǎo)致網(wǎng)站降權(quán)、不收錄、被K的問題,這可以算是很多站點(diǎn)的通病。今天寫出這篇文章,就是來做一個(gè)分享:關(guān)于robots.txt協(xié)議,你寫對(duì)了嗎?
一、設(shè)置成Allow全站點(diǎn)抓取
百度收錄的越多,網(wǎng)站的排名越高?這是絕大多數(shù)站長(zhǎng)的認(rèn)為,事實(shí)上也是如此。但是也并非絕對(duì)成立:低質(zhì)量的頁(yè)面收錄,會(huì)降低網(wǎng)站的排名效果,這一點(diǎn)你考慮到了嗎?
如果你的網(wǎng)站結(jié)構(gòu)不是非常的清晰,以及不存在多余的“功能”頁(yè)面,不建議對(duì)網(wǎng)站開全站點(diǎn)的抓取,一些不夠好的頁(yè)面被抓取對(duì)網(wǎng)站只會(huì)帶來負(fù)面的影響和評(píng)價(jià)。
二、那么什么樣的頁(yè)面不建議抓取
對(duì)于網(wǎng)站功能上有用的目錄,有用的頁(yè)面,在用戶體驗(yàn)上可以得到更好的提升。但是搜索引擎方面來講,就會(huì)造成:服務(wù)器負(fù)擔(dān),比如:大量的翻頁(yè)評(píng)論,對(duì)優(yōu)化上則沒有任何的價(jià)值。
除此外還包含如:網(wǎng)站做了偽靜態(tài)處理后,那么就要將動(dòng)態(tài)鏈接屏蔽掉,避免搜索引擎抓取。用戶登錄目錄、注冊(cè)目錄、無(wú)用的軟件下載目錄,如果是靜態(tài)類型的站點(diǎn),還要屏蔽掉動(dòng)態(tài)類型的鏈接。
三、撰寫上的細(xì)節(jié)注意事項(xiàng)
1、舉例:Disallow; /a 與Disallow: /a/的區(qū)別,很多站長(zhǎng)都見過這樣的問題,為什么有的協(xié)議后加斜杠,有的不加斜杠呢?筆者今天要說的是:如果不加斜杠,屏蔽的是以a字母開頭的所有目錄和頁(yè)面,而后者代表的是屏蔽當(dāng)前目錄的所有頁(yè)面和子目錄的抓取。
通常來講,我們往往選擇后者更多一些,因?yàn)槎x范圍越大,容易造成“誤殺”。
2、JS文件、CSS需要屏蔽嗎?不少網(wǎng)站都做了這個(gè)屏蔽,但是筆者要說的是:google站長(zhǎng)工具明確的說明:封禁css與js調(diào)用,可能會(huì)影響頁(yè)面質(zhì)量的判斷,從而影響排名。而對(duì)此,我們做了一些了解,百度方面同樣會(huì)有一定影響。
3、已經(jīng)刪除的目錄屏蔽,很多站長(zhǎng)往往刪除一些目錄后,怕出現(xiàn)404問題,而進(jìn)行了屏蔽,禁止搜索引擎再抓取這樣的鏈接。事實(shí)上,這樣做真的好嗎?即使你屏蔽掉了,如果之前的目錄存在問題,那么沒有被蜘蛛從庫(kù)中剔除,同樣會(huì)影響到網(wǎng)站。
建議最佳的方式是:將對(duì)應(yīng)的主要錯(cuò)誤頁(yè)面整理出來,做死鏈接提交,以及自定義404頁(yè)面的處理,徹底的解決問題,而不是逃避問題。