<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    SEO如何處理采集內容

    作者:聚擎 瀏覽:178 發布時間:2017-06-28
    分享 評論 0

    有人說采集內容對搜索引擎友好性不高,不容易獲得排名,這個是肯定且必然的。

     
    seo內容采集
     

      對大多站點,上采集內容必定不如UGC、精心編輯過的內容來的效果好。但是,現在搜索引擎能獲取到的原創內容量已經不如之前多了,畢竟內容生產平臺已經轉移了,早就不集中在網站上了。另外幾個搜索引擎之間還相互抓,何況小站點呢。

      所以采集內容依舊是有效的,只不過對采集內容后加工的成本越來越高了。

      采集內容的后加工

      擔心采集內容效果差,或者容易被K,主要還是看怎么對內容后加工。打個比方:

      好比從沃爾瑪拿了一筐獼猴桃,原封不動的放到家樂福,頂多還只能是原來的售價,因為獼猴桃還是獼猴桃,商品不變。但把獼猴桃榨成汁(形態變化),加點水分瓶裝(粒度變化),再放到711里賣(平臺變化),售價可以翻幾倍(價值增益)

      為啥?

      因為形態變了,果汁是不同于水果的商品,且果汁更容易吸收

      因為平臺變了,711定價本身就比沃爾瑪家樂福要高一點

      因為粒度變了,一生二二生三三生萬物

      前三者的變化,導致價值的翻倍

      如果把“采集內容”比作“獼猴桃”,則對“采集內容”的后加工策略如下:

      形態

      組織內容方式無窮多,無論對同一個內容掰開了揉碎了分發到多處、還是多篇相關內容聚合到一處、還是其他方式,都可以讓搜索引擎更容易接受。

      平臺

      術業有專攻,從新浪抓一些垂直行業內容放到對應行業的垂直網站,肯定比放到新浪更合適。把專業化的內容放到專業的網站。

      粒度

      同樣是抓取的內容,粒度越細,在搜索引擎中的原創度越高。舉個極端的例子,星座股票起名八卦算命生辰八字風水算命qq圖片動態圖….此類型的站,哪個內容不是重復的?

      增益

      采集的目的在于補全內容上的漏洞,使同主題的內容比別人更加豐富飽滿充實,則產生了頁面內容價值上的增益。

      采集內容完整流程

      關于“采集內容處理”,從抓取到上線整個流程看,要搞定以下問題:

      采集內容從哪來?

      采集內容怎么抓?

      采集內容如何處理?

      采集內容從哪來?

      對于正經做站且做正經站的,定向采集、買專業數據更合適。

      定向采集,只抓幾個特定網站的特定范圍,與本站內容漏洞高度相關的。

      對于不正經做站的,可選擇的范圍就多很多了,沾點邊的內容都可以抓,講究量大,所以不需要限定某幾個站的抓取,有人叫泛采集

      設置幾個主題,直接抓各種大平臺的搜索結果便可。大平臺指什么?海量內容集中的地方:各類搜索引擎、各類門戶、今日頭條、微信微博、優酷土豆等等

      采集內容怎么抓?

      定向采集:

      略,平常怎么抓就怎么抓。

      泛采集:

      定向爬蟲受限于網頁模板,在此基礎上加上幾個內容分析算法來提取內容,改成通用爬蟲。

      好多瀏覽器插件,如印象筆記之類的,有好多類似“只看正文”的功能,點一下只顯示當前瀏覽網頁的正文信息,很多人已經把此類算法移植到python、php、java等編程語言上,搜索下便是。

      采集內容如何處理?

      兩個先后過程:

      對原始內容的處理

      對處理后內容進行組織

      對原始內容的處理

      百度專利說過,搜索引擎除了根據正文判斷內容相似性,也會根據html的dom節點的位置和順序來判斷,如果兩個網頁正文的html的結構相似,也可能當做重復內容來處理。

      所以,采集的內容不能直接拿來就上,要對源碼清洗一下。每個人方式各異,個人一般做如下處理:

      html清洗

      保留主要標簽:p、img

      刪除標簽中不重要的屬性

      a = re.sub(r'<(?!p|img|/p)[^<>]*?>','',content).strip()

      b = re.sub(r'<p[^>]*?>','<p>',a)

      newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()

      刪除中文字數 < 100字的

      text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,::。?、~@#¥%……&*()“”《》]+".decode("utf8"), "".decode("utf8"),newcontent)

      text2 = re.sub('<[^>]*?>','',text)

      words_number = len(text2)

      去除垃圾信息

      如“XXX網小編:XXX”、郵箱網址等。。。

      對處理后內容進行組織

    日本精品αv中文字幕| 国产精品福利在线播放| 久久久久久一区国产精品| 日韩高清在线免费看| 国产精品免费视频网站| 久久亚洲精品成人无码| 99re最新这里只有精品| 91精品国产麻豆国产自产在线 | 亚洲精品乱码久久久久久蜜桃| 日韩乱码人妻无码中文视频| 国产精品99久久不卡| 2020国产精品亚洲综合网| 亚洲伊人精品综合在合线| 99热这里只有精品6免费| 久久精品一区二区东京热| 亚洲av永久无码精品秋霞电影影院| 亚洲日韩国产精品第一页一区| 久久精品无码一区二区app| 久久99精品久久久久久野外| 精品无码国产污污污免费网站国产| 国产精品JIZZ在线观看老狼| 国产福利精品视频自拍 | 国产在线精品一区二区高清不卡| 国产精品青草视频免费播放| 国产成人精品午夜福麻豆| 6一12呦女精品| 国产精品青草久久久久福利99| 久久精品国产福利国产琪琪| 国产亚洲精品看片在线观看| 国产在线无码精品电影网| 国内揄拍国内精品| 欧洲熟妇精品视频| 亚洲国产精品乱码一区二区| 久久精品国产亚洲AV麻豆~| 无码久久精品国产亚洲Av影片| 99久久99热精品免费观看国产| 亚洲精品视频观看| 无码精品尤物一区二区三区| 亚洲精品无播放器在线播放 | 羞羞色院91精品网站| 夜夜高潮夜夜爽国产伦精品|