此問題,有幾個網友在QQ上和我詢問,才覺得貌似部分人在這里是存在誤區(qū)的。那么今天展開來一起討論下爬蟲可以檢測重復率嗎?
首先,要明確一點,爬蟲本身做的工作是在互聯(lián)網上尋找URL地址,然后取網頁中的內容。爬蟲的“抓”和“取”是兩個動作。抓是找網址,取是把找到的網址里的內容下載下來。這個內容寬泛來說是指整個網頁的源代碼。爬蟲最重要的工作就是這兩個。對于是否能夠檢測網頁的重復率不是爬蟲完成。
但換一個問法,搜索引擎可以檢測網頁的重復率嗎?這個是可以的。搜索引擎要實現(xiàn)最后的結果,中間經過的處理環(huán)節(jié)很多。而在對數(shù)據(jù)處理的過程中,先提取你網頁源代碼中的文本信息,然后進行分詞,分詞之后就可以知道在你的網頁中某些詞在你網頁中出現(xiàn)了多少次。中間再把格式不一樣但內容一樣的做去重。最后你網頁有價值的檢索詞就出現(xiàn)了,同時你網頁的重復性也就此得知了。
評論(0人參與,0條評論)
發(fā)布評論
最新評論