<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    爬行、抓取、索引、收錄,指的都是什么?

    作者:紫色年華 瀏覽:177 發(fā)布時間:2017-07-24
    分享 評論 0

        一位讀者在蜘蛛抓取配額是什么這篇帖子留言:


        不對呀,這個index標簽,是指告訴蜘蛛可以抓取該頁面,那么noindex不就是不允許抓取該頁面嗎?!那么為什么文章最后的幾個說明里有“noindex標簽不能節(jié)省抓取份額。搜索引擎要知道頁面上有noindex標簽,就得先抓取這個頁面,所以并不節(jié)省抓取份額。”


        留言說明,這位讀者并沒有太明白什么是抓取,什么是索引,index和noindex標簽的意義又是什么。noindex標簽不是不允許抓取該頁面,是不允許索引該頁面,這兩者是不同的意思,有不同的功能。


        看SEO有關(guān)博客和論壇時能感覺到,很多SEO并沒有理解爬行、抓取、索引、收錄這些概念到底指的是什么,區(qū)別在哪,noindex、nofollow、robots文件的功能又是什么。對這些概念沒有精準理解,處理大型網(wǎng)站結(jié)構(gòu),決定什么頁面需要被抓取,什么需要被索引,哪些頁面需要禁止抓取、索引等等情況時,就很難明白該怎么做。甚至就像抓取配額那篇帖子的很多留言說的,提到這些情況的處理時,根本看不懂在說什么。


        這么基本、重要,又比較容易混淆的SEO概念,我以為以前在博客里寫過了,看了留言,翻翻以前帖子才知道,原來以前沒寫過。SEO實戰(zhàn)密碼書里是有寫的,但SEO每天一貼里并沒有寫過。今天補上。


        爬行是什么?


        爬行指的是搜索引擎蜘蛛從已知頁面上解析出鏈接指向的URL,然后沿著鏈接發(fā)現(xiàn)新頁面(也就是鏈接指向的URL)的過程。當(dāng)然,蜘蛛并不是發(fā)現(xiàn)新URL馬上就爬過去抓取新頁面,而是把發(fā)現(xiàn)的URL存放到待抓地址庫中,蜘蛛按照一定順序從地址庫中提取要抓取的URL。


        抓取是什么?


        抓取是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL,訪問這個URL,把讀取的HTML代碼存入數(shù)據(jù)庫。蜘蛛的抓取就是像瀏覽器一樣打開這個頁面,和用戶瀏覽器訪問一樣,也會在服務(wù)器原始日志中留下記錄。


        索引是什么?


        索引指的是將一個URL的信息進行整理,存入數(shù)據(jù)庫,也就是索引庫,用戶搜索時,搜索引擎從索引庫中提取URL信息并排序展現(xiàn)出來。索引的英文是index。索引庫是用于搜索的,所以被索引的URL是可以被用戶搜索到的,沒有被索引的URL用戶在搜索結(jié)果中是看不到的。


        要注意的是,所謂“一個URL的信息”,并不限于蜘蛛從URL上抓取來的內(nèi)容,還有來自其它來源的信息,如外部鏈接、鏈接的錨文字等。有的時候,索引庫中關(guān)于這個URL的的信息,根本沒有從這個URL抓取來的內(nèi)容,但搜索引擎知道這個URL的存在,并且有一些其它信息。


        抓取和索引不是一回事。


        收錄是什么?


        我個人覺得收錄和索引沒有區(qū)別。只不過收錄是從搜索用戶角度看的,搜索時能找到這個URL,就是這個URL被收錄了。從搜索引擎角度看,URL被收錄了,也就是這個URL的信息在索引庫中存在。英文并沒有收錄這個詞,和索引用的是同一個詞index。


        noindex的作用是什么?


        頁面頭信息中放上meta noindex標簽是告訴搜索引擎不要索引這個URL,也就是用戶搜索時找不到這個URL的信息,這個URL不會返回在搜索結(jié)果列表中。


        noindex不是告訴搜索引擎不要抓取這個URL,實際上,noindex要起作用,這個URL是必須先被抓取的,不然搜索引擎怎么看到頁面HTML代碼中有noindex標簽?zāi)兀?/p>


        robots文件的作用是什么?


        robots文件是告訴搜索引擎,某些URL不要抓取。注意,這里說的是不要抓取,沒說不要索引。和noindex是正相反的。


        nofollow的作用是什么?


        給鏈接加上nofollow屬性是告訴搜索引擎,不要沿著這個鏈接爬行,就當(dāng)這個鏈接不存在。注意,nofollow只是告訴蜘蛛不要爬這個鏈接,沒有說不要抓取鏈接指向的URL,也沒有說不要索引鏈接指向的URL,nofollow既沒禁止抓取,也沒禁止索引。


        概念說過后,指出幾個SEO們經(jīng)常弄不明白的情況:


        沒有被抓取的頁面是可以被索引的


        也就是說,蜘蛛沒有訪問和抓取這個頁面(比如被robots文件禁止抓取),這個頁面卻有信息存在索引庫中,用戶搜索時還能看到。


        比如,淘寶整個網(wǎng)站用robots文件禁止百度蜘蛛抓取,但沒有用noindex禁止索引(如上面說的,禁止抓取后,就沒辦法禁止索引了,不抓取,就看不到noindex標簽了),所以即使百度沒有訪問和抓取淘寶頁面,但淘寶很多頁面是被百度索引的,用戶可以搜到的:


        百度從網(wǎng)上那么多鏈接知道淘寶首頁的存在,通過鏈接的錨文字也知道這個頁面標題大概是淘寶之類的,當(dāng)然更知道百度口碑里的評價數(shù)。所以即使百度蜘蛛沒有抓取淘寶首頁,用戶還是能搜到,并且顯示一些百度知道的信息。


        要想百度不能返回淘寶首頁該怎么辦呢?取消robots文件的禁止抓取,頁面上用noindex禁止索引。


        被抓取的頁面是可以不被索引的


        最常見的就是上面說過的,頁面頭信息使用noindex禁止索引,頁面被抓取,讀到noindex后,不被索引,不會在搜索結(jié)果中返回。


        還有可能是因為頁面內(nèi)容是抄襲、轉(zhuǎn)載、低質(zhì)量的,搜索引擎雖然抓取了頁面,索引過程中檢測出這些內(nèi)容問題,被丟棄,沒有被索引。所以頁面沒有被收錄,通常要先檢查原始日志,看看是否被抓取過,如果被抓取過,可能是內(nèi)容質(zhì)量問題,如果根本沒被抓取,建議先看看網(wǎng)站結(jié)構(gòu)是否有問題。


        加了nofollow的鏈接目標頁面可以被抓取和索引


        前面說了,nofollow既不禁止抓取,也不禁止索引。nofollow的作用是告訴蜘蛛不要跟著這個鏈接爬,就當(dāng)這個鏈接不存在,但nofollow只對這個鏈接起作用,對別的鏈接沒作用,這個鏈接加了nofollow,不意味著別的地方就沒有正常的指向這個URL的鏈接,只要別的地方出現(xiàn)了沒加nofollow的鏈接,目標URL還是會被發(fā)現(xiàn)、抓取(假設(shè)沒被robotx文件禁止)、索引(假設(shè)沒加noindex )。


        上面這些概念和應(yīng)用在SEO中是很重要的,如果還沒看懂,我也不知道該怎么再解釋了,只能建議再多讀幾遍。


    精品亚洲456在线播放| 久久夜色精品国产噜噜亚洲AV| 久久久无码精品亚洲日韩蜜桃| 精品久久久无码人妻中文字幕豆芽| 精品国产yw在线观看| 日韩精品乱码AV一区二区| 久久97精品久久久久久久不卡| 久久精品国产99久久香蕉| 亚洲?V乱码久久精品蜜桃 | 亚洲国产日韩在线观频| 岛国精品在线观看| 亚洲精品乱码久久久久久蜜桃图片| 国产精品色拉拉免费看| 国产精品免费观看| 国产精品亚洲片夜色在线| 精品无人区一区二区三区在线| 91久久亚洲国产成人精品性色| 99热精品国产麻豆| 久久久久女人精品毛片| 精品人妻无码区二区三区| 三上悠亚久久精品| 久久99久久99精品| 蜜国产精品jk白丝AV网站| 日韩精品无码熟人妻视频| 色一乱一伦一图一区二区精品| 久久99热成人精品国产| 亚洲综合精品一二三区在线| 久久精品国产亚洲AV果冻传媒| 亚洲国产精品无码久久一线| 亚洲高清国产拍精品26U| 久久精品国产亚洲av四虎| 久久免费观看国产精品88av| 久久久久久久99精品国产片| 日本一卡精品视频免费| 久久99国产精品尤物| 麻豆一区二区三区精品视频| 亚洲精品国产啊女成拍色拍| 人妖在线精品一区二区三区| 久久久久久久久66精品片| 国产精品无码一区二区在线| 国产精品国语对白露脸在线播放|