<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    優(yōu)化WordPress的robots.txt讓博客更健康

    作者:川藏線。 瀏覽:177 發(fā)布時間:2018-01-16
    分享 評論 0

    WordPress目前全球有數(shù)千萬用戶,包括獨立博客和博客平臺,且很多人把Wordpress開發(fā)成CMS來使用。Wordpress程序的優(yōu)越性就不用多說了。


    講Wordpress的robots.txt優(yōu)化之前,先對robots.txt的相關(guān)知識普及一下。


    robots.txt是一個存放在網(wǎng)站根目錄下的純文本文件(ASCII編碼),這個文件用于指定spider在您網(wǎng)站上的抓取范圍,一定程度上保護站點的安全和隱私。同時也是網(wǎng)站優(yōu)化利器,例如屏蔽捉取站點的重復(fù)內(nèi)容頁面。


    robots.txt目前并不是一種標(biāo)準(zhǔn),只是一種協(xié)議!所以現(xiàn)在很多搜索引擎對robots.txt里的指令參數(shù)都有不同的看待。


    使用robots.txt需要注意的幾點地方:


    1、指令區(qū)分大小寫,忽略未知指令,下圖是本博客的robots.txt文件在Google管理員工具里的測試結(jié)果;




    好像還是不支持中文等非英文字符,如需添加中文地址指令,請先轉(zhuǎn)碼(UTF-8和GBK會有不同的轉(zhuǎn)碼結(jié)果)。


    如果想第一時間知道自己寫的robots.txt是否規(guī)范,可以用Google管理員工具的“像 Googlebot 一樣抓取”功能。捉取后,點擊“成功”那個鏈接進去,就可以看到Google眼中的robots.txt了。




    2、每一行代表一個指令,空白和隔行會被忽略;


    3、“#”號后的字符參數(shù)會被忽略;


    4、有獨立User-agent的規(guī)則,會排除在通配“*”User agent的規(guī)則之外;


    5、可以寫入sitemap文件的鏈接,方便搜索引擎蜘蛛爬行整站內(nèi)容。


    6、盡量少用Allow指令,因為不同的搜索引擎對不同位置的Allow指令會有不同看待。


    想了解更多關(guān)于robots.txt的“標(biāo)準(zhǔn)化”說明,可以查看robots.txt官網(wǎng)和Google關(guān)于robots.txt的說明頁。


    轉(zhuǎn)入正題。因為Wordpress建站設(shè)置不同的固定鏈接(或者安裝不同的插件),在寫指令的時候,相應(yīng)的地址會不同。本博客固定鏈接設(shè)置為:/a/%post_id%.html,供參考。


    下面開始Wordpress的robots.txt優(yōu)化之旅,同時請下載本博客的robots.txt邊看邊學(xué)優(yōu)化。


    User-agent: *

    一般博客的robots.txt指令設(shè)置都是面對所有spider程序,用通配符“*”即可。如果有獨立User-agent的指令規(guī)則,盡量放在通配“*”User agent規(guī)則的上方。


    Disallow: /wp-admin/

    Disallow: /wp-content/

    Disallow: /wp-includes/

    屏蔽spider捉取程序文件,同時也節(jié)約了搜索引擎蜘蛛資源。


    Disallow: /*/trackback

    每個默認(rèn)的文章頁面代碼里,都有一段trackback的鏈接,如果不屏蔽讓蜘蛛去捉取,網(wǎng)站會出現(xiàn)重復(fù)頁面內(nèi)容問題。


    Disallow: /feed

    Disallow: /*/feed

    Disallow: /comments/feed

    頭部代碼里的feed鏈接主要是提示瀏覽器用戶可以訂閱本站,而一般的站點都有RSS輸出和網(wǎng)站地圖,故屏蔽搜索引擎捉取這些鏈接,節(jié)約蜘蛛資源。


    Disallow: /?s=*

    Disallow: /*/?s=*

    這個就不用解釋了,屏蔽捉取站內(nèi)搜索結(jié)果。站內(nèi)沒出現(xiàn)這些鏈接不代表站外沒有,如果收錄了會造成和TAG等頁面的內(nèi)容相近。


    Disallow: /?r=*

    屏蔽留言鏈接插件留下的變形留言鏈接。(沒安裝相關(guān)插件當(dāng)然不用這條指令)


    Disallow: /*.jpg$

    Disallow: /*.jpeg$

    Disallow: /*.gif$

    Disallow: /*.png$

    Disallow: /*.bmp$

    屏蔽捉取任何圖片文件,在這里主要是想節(jié)約點寬帶,不同的網(wǎng)站管理員可以按照喜好和需要設(shè)置這幾條指令。


    Disallow: /?p=*

    屏蔽捉取短鏈接。默認(rèn)頭部里的短鏈接,百度等搜索引擎蜘蛛會試圖捉取,雖然最終短鏈接會301重定向到固定鏈接,但這樣依然造成蜘蛛資源的浪費。


    Disallow: /*/comment-page-*

    Disallow: /*?replytocom*

    屏蔽捉取留言信息鏈接。一般不會收錄到這樣的鏈接,但為了節(jié)約蜘蛛資源,也屏蔽之。


    Disallow: /a/date/

    Disallow: /a/author/

    Disallow: /a/category/

    Disallow: /?p=*&preview=true

    Disallow: /?page_id=*&preview=true

    Disallow: /wp-login.php


    屏蔽其他的一些形形色色的鏈接,避免造成重復(fù)內(nèi)容和隱私問題。


    Sitemap:http://***.com/sitemap.txt


    網(wǎng)站地圖地址指令,主流是txt和xml格式。告訴搜索引擎網(wǎng)站地圖地址,方便搜索引擎捉取全站內(nèi)容,當(dāng)然你可以設(shè)置多個地圖地址。要注意的就是Sitemap的S要用大寫,地圖地址也要用絕對地址。


    上面的這些Disallow指令都不是強制要求的,可以按需寫入。也建議站點開通谷歌管理員工具,檢查站點的robots.txt是否規(guī)范。


    這些只是筆者的個人經(jīng)驗,在老鳥面前肯定是班門弄斧了,借站長網(wǎng)把經(jīng)驗分享出來跟大家一起交流。如站長們有補充或?qū)τ腥魏涡碌囊娊猓瑲g迎留言討論。


    2021国内精品久久久久精免费| 一本色道久久综合亚洲精品高清| 亚洲国产欧美日韩精品一区二区三区 | 午夜DY888国产精品影院| 99久久免费国产精品热| 日韩免费一区二区三区| 日韩人妻一区二区三区蜜桃视频| 国产偷窥熟女精品视频| 国产精品国语对白露脸在线播放 | 久久无码人妻精品一区二区三区| 国产A∨国片精品一区二区| 亚洲国产精品13p| 黑人巨大精品播放| 日韩亚洲人成在线| 亚洲av日韩av永久无码电影| 日韩精品在线观看视频| 日韩a级无码免费视频| 日韩在线观看视频免费| 日韩精品一区二区三区中文字幕| 国产精品久久久久久影视| 国产精品免费一级在线观看| 国产精品特级露脸AV毛片| 青青国产精品视频| 精品久久伦理中文字幕| 精品剧情v国产在线麻豆| 国产麻豆剧传媒精品国产AV| 天天综合亚洲色在线精品| 国产精品久久久久国产精品| 国产伦精品一区三区视频| 国产日韩高清一区二区三区| 精品无码日韩一区二区三区不卡| 日韩人妻一区二区三区免费 | 久久久久成人精品| 亚洲一二成人精品区| 久久香综合精品久久伊人| 精品无码人妻一区二区三区品| 精品人妻大屁股白浆无码| 久久国语露脸国产精品电影| 中文字幕动漫精品专区| 日韩精品久久久久久久电影| 人妻精品无码一区二区三区|