<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    抓取網(wǎng)站的搜索引擎蜘蛛是不是越多越好

    作者:長(zhǎng)瘦不老i 瀏覽:150 發(fā)布時(shí)間:2018-03-30
    分享 評(píng)論 0

      做過SEO或站長(zhǎng)的都應(yīng)該知道,網(wǎng)站要想做排名就必須使網(wǎng)站文章先收錄,而網(wǎng)站內(nèi)容收錄由跟搜索引擎蜘蛛的來訪抓取有很大的關(guān)系。


      搜索引擎蜘蛛,又被稱為網(wǎng)頁爬蟲,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,也經(jīng)常被稱為網(wǎng)頁追逐者,是一種按照一定的規(guī)則,自動(dòng)的抓取萬維網(wǎng)信息的程序或者腳本。另外它還有一些不常使用的名字,如:螞蟻,自動(dòng)索引,模擬程序或者蠕蟲。那么,對(duì)于一個(gè)網(wǎng)站來說,是不是來網(wǎng)站爬行的搜索引擎蜘蛛越多越好呢?


      一、搜索引擎蜘蛛抓取網(wǎng)頁的原理


      關(guān)于搜索引擎獲得網(wǎng)頁的工具,是一款爬行程序(俗稱蜘蛛),蜘蛛程序每天都會(huì)爬行大量的網(wǎng)頁,并將一些新的網(wǎng)頁信息帶到服務(wù)器以便進(jìn)行網(wǎng)頁索引的建立。


      可以說,互聯(lián)網(wǎng)就是由一個(gè)個(gè)鏈接構(gòu)成的,蜘蛛程序順著這些鏈接爬行并發(fā)現(xiàn)網(wǎng)頁信息,蜘蛛程序爬行每一個(gè)頁面,當(dāng)這個(gè)頁面不再有新的鏈接信息的時(shí)候,它就返回,下次再到這個(gè)頁面的時(shí)候,再去爬行。


      當(dāng)給它足夠的時(shí)間,他就會(huì)找到互聯(lián)網(wǎng)所有的網(wǎng)頁信息(至少是被鏈接的),在爬行的時(shí)候,它還會(huì)不斷的向服務(wù)器提供信息,所以我們?cè)谶M(jìn)行網(wǎng)站日志分析的時(shí)候,如果發(fā)現(xiàn)某一個(gè)網(wǎng)頁被某個(gè)搜索引擎的蜘蛛程序程序爬行并成功抓取數(shù)據(jù),那么,這個(gè)網(wǎng)頁就很有可能被索引。


      所以,從SEO的角度來說,提高網(wǎng)頁的索引數(shù)據(jù)(收錄量)對(duì)于一個(gè)網(wǎng)站的搜索引擎優(yōu)化(SEO)是非常有利的。


      當(dāng)蜘蛛程序在爬行鏈接的過程中,它還會(huì)對(duì)爬行過的鏈接進(jìn)行處理,因?yàn)殒溄有枰d體(文字、圖片或其他信息),發(fā)現(xiàn)鏈接載體并存儲(chǔ)鏈接數(shù)據(jù)。


      所以這里我們要做的,就是努力增加蜘蛛爬行頁面的頻率(在以往的網(wǎng)站分析中經(jīng)常提到),以保證我們網(wǎng)頁在搜索引擎數(shù)據(jù)庫中的索引是最新的。


      比如蜘蛛程序今天訪問了網(wǎng)站的兩個(gè)網(wǎng)頁并成功抓取,隔了兩個(gè)星期,它再來訪問這兩個(gè)頁面的時(shí)候,這兩個(gè)網(wǎng)頁其中一個(gè)更新了,另一個(gè)確沒有,那么,蜘蛛程序可能會(huì)在一個(gè)星期內(nèi)再次回訪更新過的那個(gè)網(wǎng)頁,而在一個(gè)月后才去訪問沒有更新的那個(gè)網(wǎng)頁,隨著時(shí)間的推移,蜘蛛程序會(huì)更加頻繁是爬行經(jīng)常更新的網(wǎng)頁,以達(dá)到更新服務(wù)器中的索引數(shù)據(jù),向用戶提供最新的網(wǎng)頁信息。


      二、搜索引擎蜘蛛是不是越多越好?


      不論哪個(gè)搜索引擎的爬蟲,來抓取你網(wǎng)站的頁面的時(shí)候,肯定在消耗你的網(wǎng)站資源,例如網(wǎng)站的連接數(shù)、網(wǎng)絡(luò)帶寬資源(空間流量)、服務(wù)器的負(fù)載、甚至還有盜鏈等,那是不是所有的搜索引擎蜘蛛都是有用呢?


      另外,搜索引擎的爬蟲來抓取你的頁面數(shù)據(jù)后,它也不一定收用數(shù)據(jù),只代表它 到此一游 留下痕跡而已,據(jù)了解有些搜索引擎只是過來找下它想要的資源,甚至還有很多是開發(fā)人員的蜘蛛測(cè)試。


      對(duì)于一個(gè)原創(chuàng)內(nèi)容豐富,URL結(jié)構(gòu)合理易于爬取的網(wǎng)站來說,簡(jiǎn)直就是各種爬蟲的盤中大餐,很多網(wǎng)站的訪問流量構(gòu)成當(dāng)中,爬蟲帶來的流量要遠(yuǎn)遠(yuǎn)超過真實(shí)用戶訪問流量,甚至爬蟲流量要高出真實(shí)流量一個(gè)數(shù)量級(jí)。


      對(duì)于那些想提高網(wǎng)站有效利用率的網(wǎng)站,雖然設(shè)置了相當(dāng)嚴(yán)格的反爬蟲策略,但是網(wǎng)站處理的動(dòng)態(tài)請(qǐng)求數(shù)量仍然是真實(shí)用戶訪問流量的2倍。


      可以肯定的說,當(dāng)今互聯(lián)網(wǎng)的網(wǎng)絡(luò)流量有很大一部分的流量是爬蟲帶來的,因此反搜索引擎爬蟲是一個(gè)值得SEO長(zhǎng)期探索和解決的問題。


      所以,從SEO的角度來說,搜索引擎蜘蛛來網(wǎng)站訪問并非越多越好,并且還要合理的屏蔽無效的搜索引擎蜘蛛的抓取。


      三、過多的搜索引擎爬蟲對(duì)網(wǎng)站的影響


      既然對(duì)于網(wǎng)站來說,搜索引擎蜘蛛并非是越多越好,那么,這具體是因?yàn)槭裁丛驅(qū)е碌哪兀?/p>


      1、浪費(fèi)帶寬資源


      如果你的網(wǎng)站帶寬資源有限,而爬蟲的量過多,導(dǎo)致正常用戶訪問緩慢,原本虛擬主機(jī)主機(jī)的連接數(shù)受限,帶寬資源也是有限,這種情況搜索引擎爬蟲受影響呈現(xiàn)更明顯。


      2、過于頻繁的抓取會(huì)導(dǎo)致服務(wù)器報(bào)錯(cuò)


      如果搜索引擎爬蟲過于頻繁,會(huì)抓取掃描很多無效頁面,甚至抓頁面抓到服務(wù)器報(bào)502、500 、504等服務(wù)器內(nèi)部錯(cuò)誤了,蜘蛛爬蟲還在不停使勁抓取。


      3、與網(wǎng)站主題不相關(guān)的搜索引擎爬蟲消耗資源


      比如一淘網(wǎng)的抓取工具是一淘網(wǎng)蜘蛛(EtaoSpider),目前是被各大購物網(wǎng)站屏蔽的,拒絕一淘網(wǎng)抓取其商品信息及用戶產(chǎn)生的點(diǎn)評(píng)內(nèi)容。


      被禁止的原因首先應(yīng)該是它們之間沒有合作互利的關(guān)系,還有就是EtaoSpider爬蟲是一個(gè)抓取最瘋狂的蜘蛛,據(jù)對(duì)一些電商網(wǎng)站的測(cè)試發(fā)現(xiàn):一淘網(wǎng)蜘蛛(EtaoSpider)的一天爬行量比 百度蜘蛛(Baiduspider) 360蜘蛛(360Spider) SOSO蜘蛛(Sosospider) 等主流蜘蛛爬蟲多幾倍,并且是遠(yuǎn)遠(yuǎn)的多。


      重點(diǎn)是EtaoSpider被抓取只會(huì)消耗你的網(wǎng)站資源,它不會(huì)給你帶來訪問量,或者其它對(duì)你有利用的。


      4、無效的測(cè)試抓取


      一些搜索引擎開發(fā)程序員,它們寫的爬蟲程序在測(cè)試爬行。


      5、robots.txt文件也并非是萬能


      肯定有很多人認(rèn)為,在robots.txt設(shè)置屏蔽搜索引擎爬蟲即可,或者允許某些特定的搜索引擎爬蟲,能達(dá)到你預(yù)想效果。


      正規(guī)搜索引擎會(huì)遵守規(guī)則,不過不會(huì)及時(shí)生效,但是據(jù)我對(duì)博客的測(cè)試發(fā)現(xiàn):實(shí)際上某些蜘蛛往往不是這樣的,先掃描抓取你的頁面,無視你的robots.txt,也可能它抓取后不一定留用,或者它只是統(tǒng)計(jì)信息,收集互聯(lián)網(wǎng)行業(yè)趨勢(shì)分析統(tǒng)計(jì)。


      6、不是搜索引擎蜘蛛,但具有蜘蛛的特性


      例如采集軟件,采集程序,網(wǎng)絡(luò)掃描e-mail地址的工具,各式各樣的SEO分析統(tǒng)計(jì)工具,千奇百怪的網(wǎng)站漏洞掃描工具等等,這些抓取對(duì)網(wǎng)站沒有任何好處!


      四、如何解決無效搜索引擎蜘蛛取的問題


      各種搜索引擎的蜘蛛爬蟲會(huì)不斷地訪問抓取我們站點(diǎn)的內(nèi)容,也會(huì)消耗站點(diǎn)的一定流量,有時(shí)候就需要屏蔽某些蜘蛛訪問我們的站點(diǎn)。那么接下來,就根據(jù)自己的經(jīng)驗(yàn)跟大家分享4種解決無效搜索引擎蜘蛛抓取的方法:


      1、只運(yùn)行常用的搜索引擎蜘蛛抓取


      依據(jù)空間流量實(shí)際情況,就保留幾個(gè)常用的,屏蔽掉其它蜘蛛以節(jié)省流量。


      2、通過服務(wù)器防火墻來屏蔽ip


      從服務(wù)器防火墻iptable直接屏蔽蜘蛛IP段、詳細(xì)的IP,這是最直接、有效的屏蔽方法。


      3、WWW服務(wù)器層面做限制


      例如Nginx,Squid,Lighttpd,直接通過 http_user_agent 屏蔽搜索引擎爬蟲。


      4、最后robots.txt文件做限制


      搜索引擎國(guó)際規(guī)則還是要遵循規(guī)則的。


      五、各大搜索引擎蜘蛛的名稱


      為了使大家找到適合自己網(wǎng)站的搜索引擎蜘蛛,也特意整理了一份最新的各大搜索引擎蜘蛛名稱(大家要注意下寫法的不同點(diǎn),特別是大小寫):


      1、百度蜘蛛:Baiduspider


      網(wǎng)上的資料百度蜘蛛名稱有BaiduSpider、baiduspider等,那是舊黃歷了。百度蜘蛛最新名稱為Baiduspider,我通過對(duì)博客日志的檢查還發(fā)現(xiàn)了Baiduspider-image這個(gè)百度旗下蜘蛛,是抓取圖片的蜘蛛。


      常見百度旗下同類型蜘蛛還有下面這些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取圖片)、Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)。


      2、谷歌蜘蛛:Googlebot


      這個(gè)爭(zhēng)議較少,但也有說是GoogleBot的,谷歌蜘蛛最新名稱為 compatible; Googlebot/2.1; ,不過,我還在博客的日志中發(fā)現(xiàn)了Googlebot-Mobile,看名字是抓取wap內(nèi)容的。


      3、360蜘蛛:360Spider


      它是一個(gè)很 勤奮抓爬 的蜘蛛。


      4、SOSO蜘蛛:Sosospider


      5、雅虎蜘蛛: Yahoo! Slurp China 或者Yahoo!


      6、有道蜘蛛:YoudaoBot,YodaoBot


      7、搜狗蜘蛛:Sogou News Spider


      另外,還發(fā)現(xiàn)搜狗蜘蛛還包括以下這些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider。


      8、MSN蜘蛛:msnbot,msnbot-media


      9、必應(yīng)蜘蛛:bingbot,線上(compatible; bingbot/2.0;)


      10、一搜蜘蛛:YisouSpider


      11、Alexa蜘蛛:ia_archiver


      12、宜搜蜘蛛:EasouSpider


      13、即刻蜘蛛:JikeSpider


      14、一淘網(wǎng)蜘蛛:EtaoSpider


      根據(jù)上述蜘蛛中選擇幾個(gè)常用的允許抓取,其余的都可以通過robots屏蔽抓取,如果你的空間流量還足夠使用的話,那就不用做屏蔽了,等流量緊張了就保留幾個(gè)常用的屏蔽掉其它蜘蛛以節(jié)省流量。


      至于那些蜘蛛抓取對(duì)網(wǎng)站能帶來有利用的價(jià)值,網(wǎng)站的管理者應(yīng)該是最清楚的。


      另外,還發(fā)現(xiàn)了YandexBot、AhrefsBot和ezooms.bot這些蜘蛛,據(jù)說這些蜘蛛國(guó)外的,對(duì)中文網(wǎng)站用處很小。


      其實(shí)對(duì)于我們站長(zhǎng)來說,有效并且常用的搜索引擎就那么幾個(gè),只要在robots.txt文件里把常用的幾個(gè)搜索引擎蜘蛛允許放行就好了,其它的爬蟲統(tǒng)統(tǒng)通過通配符(*)禁止掉,或單獨(dú)屏蔽某些蜘蛛。


    国产精品福利在线观看| 麻豆成人久久精品二区三区免费 | 日韩乱码中文字幕视频| 精品久久洲久久久久护士 | 无码中文字幕日韩专区视频| 人妻少妇精品视频一区二区三区 | 七次郎在线视频观看精品| 国产亚洲福利精品一区二区| 精品国产自在久久| 欧美精品久久久久久精品爆乳| 国产四虎免费精品视频| 亚洲国产精品xo在线观看| 精品人妻中文字幕有码在线| 久久久久无码精品亚洲日韩| 久久精品国产影库免费看| 在线亚洲精品自拍| 正在播放国产精品每日更新 | 亚洲人精品午夜射精日韩| 国产精品99无码一区二区| 视频一区二区精品的福利| 日韩吃奶摸下AA片免费观看| 亚洲人精品午夜射精日韩| 国产精品videossex另类| 国产精品综合一区二区| 精品国产电影久久九九| 在线视频精品一区| 亚洲国产精品无码av| 国内精品卡1卡2卡区别| 97国产精品视频| 中文字幕在线久热精品| 久久国产加勒比精品无码| 国产精品100页| 国产精品αv在线观看| 日韩视频在线观看一区二区| 无码日韩人妻AV一区免费l| 国产日韩一区二区三免费高清| 日韩免费高清一级毛片| 日韩尤物影院一二区| 日韩免费视频网站| 亚洲av无码成人精品区在线播放| 午夜福利麻豆国产精品|