搜索引擎的收錄原理
作者:紫色年華
瀏覽:1385次
發布時間:2017-04-19




能夠獲得網站網頁資料,并建立數據庫以提供查詢的系統,我們都可以把它叫作搜索引擎[3] 。按照工作原理的不同,可以把它們分為兩個基本類別:全文搜索引擎和分類目錄[4] 。全文搜索引擎的數據庫是依靠一個叫“網絡機器人(Spider)”或叫“網絡蜘蛛(crawlers)”的軟件,它遍歷互聯網,能夠掃描一定IP地址范圍內的網站,并沿著網絡上的鏈接從一個網頁到另一個網頁,從一個網站到另一個網站采集網頁資料。它為保證采集的資料最新,還會回訪已抓取過的網頁。網絡機器人或網絡蜘蛛采集的網頁,還要有其它程序進行分析,根據一定的相關度算法進行大量的計算建立網頁索引,才能添加到索引數據庫。Google、百度都是比較典型的全文搜索引擎系統。 分類目錄則是通過人工的方式收集整理網站資料形成數據庫的,比如雅虎中國以及國內的搜狐、新浪、網易分類目錄。另外,在網上的一些導航站點,也可以歸屬為原始的分類目錄。