以下為內容詳情:
3 網站優化
3.1 抓取友好性
關于抓取的優先級,在此重點強調:
√ 網站更新頻率:經常更新高價值的站點,優先抓取
√ 受歡迎程度:用戶體驗好的站點,優先抓取
√ 優質入口:優質站點內鏈接,優先抓取
√ 歷史的抓取效果越好,越優先抓取
√ 服務器穩定,優先抓取
√ 安全記錄優質的網站,優先抓取
順暢穩定的抓取是網站獲得搜索用戶、搜索流量的重要前提,影響抓取的關鍵因素,站長可以通過本章節了解。
3.1.1 URL規范
網站的URL如何設置,可參考2.3. 1 中的URL設置規范
3.1.1.1 參數
URL中的參數放置,需遵循兩個要點:
√ 參數不能太復雜
√ 不要用無效參數,無效參數會導致頁面識別問題,頁面內容最終無法在搜索展示
另外,很多站長利用參數(對搜索引擎和頁面內容而言參數無效)統計站點訪問行為,這里強調下,盡量不要出現這種形式資源,例如:
https://www.test.com/deal/w00tb7cyv.html?s=a67b0e875ae58a14e3fcc460422032d3
或者:
http://nmtp.test.com/;NTESnmtpSI=029FF574C4739E1D0A45C9C90D656226.hzayq-nmt07.server.163.org-8010#/app/others/details?editId=&articleId=578543&articleType=0&from=sight
3.1.2 鏈接發現
3.1.2.1 百度蜘蛛
很多站長會咨詢如何判斷百度移動蜘蛛,這里推薦一種方法:只需兩步,正確識別百度蜘蛛
查看UA
如果UA都不對,可以直接判斷非百度搜索的蜘蛛,目前對外公布過的UA是:
移動UA 1:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/ search/ spider.html)
移動UA 2:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1
(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
PC UA 1:
Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
PC UA 2:
Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/ spider.html)
反查IP
站長可以通過DNS反查IP的方式判斷某只蜘蛛是否來自百度搜索引擎。根據平臺不同驗證方法不同,如Linux/Windows/OS三種平臺下的驗證方法分別如下:
在Linux平臺下,可以使用hostip命令反解IP來判斷是否來自百度蜘蛛的抓取。百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即為冒充。
這里需要在提出一點,建議使用DNS更換為8.8.8. 8 后進行nslookup反向解析,否則很容易出現無返回或返回錯誤的問題。
在Windows平臺下,可以使用nslookup ip命令反解IP來判斷是否來自百度蜘蛛的抓取。打開命令處理器輸入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析IP,來判斷是否來自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即為冒充。
在Mac OS平臺下,網站可以使用dig命令反解IP來判斷是否來自百度蜘蛛的抓取。打開命令處理器輸入dig xxx.xxx.xxx.xxx(IP地址)就能解析IP,來判斷是否來自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com的格式命名,非*.baidu.com即為冒充。
3.1.2.2 鏈接提交
鏈接提交工具是網站主動向百度搜索推送數據的工具,網站使用鏈接提交可縮短爬蟲發現網站鏈接時間,目前鏈接提交工具支持四種方式提交:
√ 主動推送:是最為快速的提交方式,建議將站點當天新產出鏈接立即通過此方式推送給百度,以保證新鏈接可以及時被百度抓取。
√ Sitemap:網站可定期將網站鏈接放到Sitemap中,然后將Sitemap提交給百度。百度會周期性的抓取檢查提交的Sitemap,對其中的鏈接進行處理,但抓取速度慢于主動推送。
√ 手工提交:如果不想通過程序提交,那么可以采用此種方式,手動將鏈接提交給百度。
√ 自動推送:是輕量級鏈接提交組件,將自動推送的JS代碼放置在站點每一個頁面源代碼中,當頁面被訪問時,頁面鏈接會自動推送給百度,有利于新頁面更快被百度發現。
簡單來說:建議有新聞屬性站點,使用主動推送進行數據提交;新驗證平臺站點,或內容無時效性要求站點,可以使用Sitemap將網站全部內容使用Sitemap提交;技術能力弱,或網站內容較少的站點,可使用手工提交方式進行數據提交;最后,還可以使用插件方式,自動推送方式給百度提交數據
評論(0人參與,0條評論)
發布評論
最新評論