SEO必須明白的知識:網(wǎng)站日志分析




作為一名seoer,對網(wǎng)站日志分析是必需要掌握的一項基本的技能,通過日志分析可以分析爬蟲抓取頁面有效性,通過日志分析蜘蛛返回的狀態(tài)碼能及時發(fā)現(xiàn)網(wǎng)站里面是否存在錯誤或者蜘蛛無法爬取的頁面,排查網(wǎng)站頁面中存在的404錯誤頁面,500服務(wù)器錯誤等這些噪音內(nèi)容上噪音頁面上(重復(fù)頁面,低質(zhì)量頁面,空內(nèi)容頁面,404頁面,不排名頁面等)
一、網(wǎng)站日志可以為我們做什么?
可以分析爬蟲抓取頁面有效性(減少搜索引擎在一些噪音頁面上:重復(fù)頁面,低質(zhì)量頁面,空內(nèi)容頁面,404頁面,不排名頁面 的抓取頻率);
頁面重要內(nèi)容是否被爬蟲完整爬到并且快速遍歷;
正確分辨蜘蛛爬蟲;
二、常見HTTP狀態(tài)碼解讀.
200代碼,表示蜘蛛爬取正常;
404代碼,訪問的這個鏈接是錯誤鏈接;
301代碼,永久重定向;
302代碼,表示臨時重定向;
304代碼,客戶端已經(jīng)執(zhí)行了GET,但文件未變化;
500代碼,表示網(wǎng)站內(nèi)部程序或服務(wù)器有錯;
日志里的含義,可以大家看下網(wǎng)站日志中各個數(shù)據(jù)都代表什么意思,總之這個文件是記錄的一天發(fā)生在網(wǎng)站上的一些行為。當我們拿到這么一個網(wǎng)站日志,我們就可以審視我們的日志,并且通過對日志文件分析解決網(wǎng)站存在的問題;
三、日志代碼解讀.
從日志文件當中可以解讀出兩個部分內(nèi)容:
1、搜索引擎抓取情況;
從日志文件中,可以大家看到搜索引擎抓取了一些404頁面及低質(zhì)量重負頁面(噪音行為)
備注:可以通過nslookup ip 識別蜘蛛的真假
/date-2016-01.html(低質(zhì)量重負頁面)
/author-1.html(低質(zhì)量重負頁面)
/downloads/(低質(zhì)量頁面)
/contact.html(死鏈接接),但這里有個問題,這個頁面返回的狀態(tài)碼為200而不是404,但頁面卻
跳轉(zhuǎn)到404頁面,從中可以發(fā)現(xiàn)服務(wù)器設(shè)置一定有問題;
所以,當我們有一些頁面不希望他們抓取的時候,我們需要在robots中進行規(guī)范。規(guī)范robots一個重要的手段,就是robots.txt。爬蟲糾偏,讓爬蟲花更多的精力放在我的詳情頁面上。
2、用戶訪問網(wǎng)站情況;
關(guān)于用戶網(wǎng)站訪問情況, 主要分析用戶訪問網(wǎng)站行為軌跡及用戶屬性。
對于一個專業(yè)的seoer來說,網(wǎng)站日志分析是我們必須要精通的事情,也希望以上的專業(yè)知識能夠為大家?guī)韼椭?/p>