久热综合在线亚洲精品,久久精品国产亚洲av日韩,久久96国产精品久久久

觸屏版
全國服務熱線：0571-87205688

價格查詢批量查詢一鍵轉入

查詢

或者

立即發布需求

昵稱：聚擎

接單：558 關注TA

達標率 0%

博文分類

SEO如何處理采集內容

作者：聚擎瀏覽：46次發布時間：2017-05-31

評論

贊0

上回說道處理采集內容的兩個先后步驟：

　　對原始內容的處理

　　對處理后內容進行組織

　　第一塊，對原始內容的處理，上篇主要針對html源碼信息的處理，但沒說對文本信息該如何處理。

　　下面分享下本渣渣曾經使用的一些，對采集內容文本的處理方式…

　　對原始采集內容文本信息的處理

　　對元數據的處理，這邊忽略，因為元數據主要是添加邏輯上的映射。比如我一個企業黃頁的網站，去抓了“XXX公司的規模、商標、年營業額、法人信息”等元數據，我需將這些元數據與本站庫內對應的企業做個關聯即可。因為元數據屬于短文本，即采即上，無需做重復性方面的處理。

seo內容

　　如果采集內容是連續大段的長文本，為了保證SEO效果，對html源碼處理后，也可以進行文本的處理。

　　文本信息處理，包括標題和正文兩部分（不考慮人工修改，只考慮批量處理）

　　標題

　　要我說SEO最重要的點、最最核心的點，就是“詞”，其他的SEO手法、技巧都是在“選對詞”的基礎上才有大效果。

　　最終目的是讓標題中出現用戶可能會搜索的詞，詳情頁標題中的詞最好是有一點點搜索量的、百度搜索結果少的，而不是熱詞、誰都搶著做的詞。

　　首先一個網頁標題出現的關鍵詞越熱門，被收錄的幾率越低，這是可以肯定的，所以不要58趕集這些大站點做啥詞，一個采集站也跟著做，除非本身權重高，否則基本沒戲的。

　　其次，在垂直行業領域和充滿個性化搜索內容的領域，競爭小且有些流量的詞可以挖出很多的。垂直領域的這些詞不容易找，因為需要對行業的理解，僅靠SEO工具不容易發現。

　　個性化搜索內容領域，如編程開發、娛樂八卦等，這類領域永遠充滿個性化的搜索詞，隨著時間的推移會源源不斷的產生新的搜索行為，只要搜索引擎不完蛋，這個領域就永遠充滿搜索流量，所以仔細觀察，好些活的挺長的流量站，內容選型大多符合這個特性，不像“招聘、二手車”之類的行業，用戶的搜索行為基本是不變的，幾個站都搶同一批詞，都飽和白熱化了，流量自然不好做。

　　采集標題如何插入搜索詞

　　如果采集的目標網站，他們的標題本身就不符合SEO，比如抓了一堆新聞標題，如何讓標題盡可能的集中用戶可能會搜的詞？本渣渣之前嘗試過這些方法：

　　方法一：精簡原始標題

　　步驟如下：

　　對原始標題分詞

　　去除停止詞

　　獲取詞綴詞性

　　去除修飾詞，如形容詞、副詞、介詞…，保留原標題主謂賓，獲取句子主干

　　基于python的jieba模塊實現，要刪除的修飾詞可以預先分析大量的標題來提取，追加到字典中。github有現成的提取句子主干的輪子，好像用的nltk。

　　貌似1688部分產品頁的title就是這么搞的，把用戶發布的產品名中一些無關大雅的詞綴干掉，提取主干放到title標簽中。

　　方法二：插入搜索詞

　　步驟如下：

　　搭建xunsearch或其他的開源搜索，對采集標題創建索引

　　用提前準保好的搜索詞（就是要做的那些詞）依次到搜索接口中搜索

　　對搜索結果中出現的標題前方插入當前搜索詞

　　比如原標題是：“斗魚美女主播直播睡覺一夜狂瀾20萬”…..，我要做的詞有“斗魚美女直播”，則標題前插入關鍵詞：“[斗魚美女直播]斗魚美女主播直播睡覺一夜狂瀾20萬”

　　當然也可以：“{強行插入的搜索詞}{精簡后的原始標題}”

　　方法三：插入當前標題已包含搜索詞的衍生詞、相關搜索詞

　　步驟如下：

　　抓取標題已包含搜索詞的百度相關搜索或下拉框，或者通過Word2vec算法分析其他抓取內容正文，獲取該搜索詞的同義詞..

　　標題中插入相關搜索或下拉框的詞

　　如：”[{百度相關搜索詞1}]{精簡標題}”、“[{下拉框推薦詞1}{原始標題}]”……相互組合啦……

　　正文

　　正文的處理主要是針對重復性，盡量降低與原始內容的相似性，本渣渣用過以下方法：

　　正文開頭、結尾處插入隨機文本

　　比如插入當前標題包含搜索詞的相關搜索詞：“本文包含其他主題：{相關搜索詞1} {相關搜索詞2} {相關搜索詞3}…”

　　比如插入當前頁面的歷史referer詞，“用戶曾經通過 {referer詞1} {referer詞2} {referer詞3}…搜索到本頁”

　　比如提前準備一些能夠通用的文本模板，隨機調用

　　修改正文內容

　　基于pagerank提取關鍵詞，textrank算法提取文本摘要，其實就是把正文內容精簡，提取主干信息，可能最終獲得原始內容50%左右的字數。

　　為了防止字數過少，可以提前用k-means和tfidf，找出當前文章的相似文章，可以提取它們正文字數最長的段落的摘要，加到當前的文章中用作字數上的補全。

　　這樣基本上文章是讀的通的，符合中文語法，且原始正文是以詞綴為粒度的刪減，所以一定程度能夠減少搜索引擎三字一判的重復性識別，對用戶和搜索引擎都相對友好，雖然肯定比不上人工編輯的質量，但比市面上粗暴的同義詞替換、段落增刪的軟件比起來好很多。比中文原封不動不改好一些。

上一篇：大型SEO網站定位和優化策略深度分析 下一篇：分析百度快照回檔的原因

評論(0人參與，0條評論)

發布評論

博文分類

SEO如何處理采集內容

猜你喜歡

評論(0人參與，0條評論)

最新評論