CND加速器對蜘蛛抓取會有影響?
作者:dengying
瀏覽:2079次
發布時間:2015-05-20




百度的官方文檔里有過說明CDN的動態IP會引起爬蟲的抓取下降;確實這次通過自己的網站實踐到網站抓取量確實受到CDN的影響。
1、動態IP會影響爬蟲的抓取;
2、如果CDN對爬蟲沒有影響,CDN的商家不會推出搜索引擎線路的服務;
3、換域名的DNS并不難,為什么不換呢;
4、從1萬多降到1000多,已經很能說明問題了;
5、百度的抓取機制是:第一次訪問后,為了快速抓取,會把域名對應IP給緩存起來,第二次就不訪問域名的DNS解析了,直接訪問緩存的IP;CDN的ip節點是動態變化的,這就會造成第二次訪問了原先的IP,會報錯
6、用戶訪問的時候:瀏覽器通過DNS查找用戶輸入網址對應的服務器IP地址。如果IP存在嘗試與服務器建立TCP連接。
7、爬蟲訪問的時候:通過第一次緩存的域名對應IP的關系,直接訪問,而不經過DNS查詢;這樣就可能出錯,因為第一次訪問的IP和第二次訪問的IP是不一樣的,就會抓取不了;
而用戶訪問是每次都查詢了DNS解析,所以不會出錯;造成的情況就是,用戶訪問沒問題,爬蟲抓取會報錯;