今天給大家說下蜘蛛陷阱,也是我交的作業中的部分內容。中招的童鞋自己注意整改,具體整改措施,這里就不多說了,因為作業還沒被改完,避免泄露答案。
蜘蛛陷阱的“前因后果”
一、蜘蛛陷阱的含義
陷阱原意是狩獵用的坑穴等處所,對人則是比喻使人受騙上當的圈套,那么對蜘蛛則是兩層含義:
A、 蜘蛛在爬行網站時,遭遇到一些讓蜘蛛程序無法正常收錄頁面或繼續爬行網站的障礙,通常是非故意為之的;
B、 使用一些技術手段,讓蜘蛛無法按正常網址目錄爬行抓取原目的網站相關頁面,而將蜘蛛引入到預設好的頁面或網站,達到干擾蜘蛛判斷網頁內容主題等網頁搜索質量體系中的相關指標值,通常是黑客等獲益人故意為之的。
二、蜘蛛陷阱的產生、危害及預防
(一) 蜘蛛程序爬行網站時遇到障礙的幾個問題
1、避免蜘蛛被排除在可訪問資源的人群之外
產生原因:只給特定人群訪問權限,如只讓已登陸或輸入了正確密碼的人能訪問到,或要求用戶有cookies才顯示內容。被排除在可訪問人群之外的蜘蛛程序就無法獲取到資源內容。
2、避免讓蜘蛛獲得的url不正確或不規范
產生原因:在設置url的時候不規范或內外推廣的url不正確,會讓蜘蛛獲得不正確或不規范的url。比如帶有等號與問號的動態url,通常url中包含多參數,易造成多個url對應的頁面內容相同,特別當統計用戶信息、彈窗回話或分析流量時,會在用戶訪問url時再增ID參數后返回頁面內容;推廣了缺失字符等不正確的url;同一頁面內容動靜態URL均可訪問。
3、避免讓蜘蛛被重定向弄的暈頭轉腦
產生原因:通常是資源被遷移,導致資源地址有變,但在相關網頁中沒修改成資源新地址,導致網頁中出現舊資源地址,一些網站就會使用重定向技術,將舊地址重定向到新地址。
4、避免出現目前蜘蛛不善于處理的資源形式
產生原因:一些網站出于視覺效果等考慮,將重要資源展示在頁面內的框架結構、FLASH、JS特效區、圖片、音頻、視頻中。
5、避免讓蜘蛛遍歷層次過深
產生原因:內容分類過多或過細,可能會分到4級以上,有幾百甚至上千欄目,而一個頁面的鏈接放置數是有限的,一些分類或欄目的鏈接不得不從首頁點5次以上才到達。另外還有一些信息藏得較深,蜘蛛要從首頁遍歷較多層次后才能獲得。
6、避免錯誤配置文件妨礙蜘蛛爬行
產生原因:網站配置UA訪問權限,可能會配置不當而禁止了蜘蛛的正常爬行;網站配置IP訪問權限,而誤禁了部分蜘蛛IP;網站配置防刷新機制,而妨礙了蜘蛛爬行;網站配置robots等相關文件,而誤禁止了蜘蛛對某些目錄或文件的正常爬行。
(二) 蜘蛛抓取爬行時被有意干擾的幾個問題
1、頁面中被JS等形式放入一些黑鏈
產生原因:疏于查看導出鏈接或技術缺失,僅憑肉眼或站長工具查看導出鏈。黑客等獲益人就以js等形式將一些鏈接放置到網頁中。
2、頁面被meta reresh,js等跳轉到其他站點或頁面
產生原因:網站基本不管理或一些頁面基本不維護,黑客等獲益人就會明目張膽的寫入跳轉源碼,讓訪問這些頁面的用戶跳轉到其他站點或頁面。
3、頁面被js等蜘蛛較難識別的形式嵌入一些內容
產生原因:一些網站疏于查看自己頁面的訪問體驗或缺少與訪客的溝通。于是黑客等獲益人就以蜘蛛較難識別的形式嵌入一些廣告內容到網頁中,處理的較好,網站安全工具也檢測不出來,另外安全聯盟廠家相關產品也無警告。
4、網站被加入一些不相干的文件夾內容
產生原因:一些網站管理者關注的是前臺頁面以及后臺功能,沒有關注到網站在搜索引擎的收錄頁面及關鍵詞排名情況。于是黑客等獲益人就在網站中加入一些不相干的文件夾內容,再通過站群等手段,將這些不相干內容的大力推廣,于是這些url就被收錄并且排名十分好。
5、在不同的UA下顯示不同的內容
產生原因:通過識別訪客的user-agent,讓蜘蛛看到的是一個正常頁面的內容,而讓普通用戶點擊進入網站后看到的是另一個頁面。主要因為一些網站管理者關注的是前臺頁面以及后臺功能,沒有關注到網站在搜索引擎的收錄頁面及關鍵詞排名情況,于是黑客等獲益人就喜歡在宿主網站上上傳自己設計好的專門給搜索引擎看的內容,將它們的url進行站群式等推廣,于是就被收錄并且排名十分好。普通用戶被跳轉引導到目標網站,專門針對蜘蛛做的內容可引導蜘蛛到目標網站。這樣普通用戶和蜘蛛就都被劫持到目標網站上了。
評論(0人參與,0條評論)
發布評論
最新評論