国产主播精品福利19禁vip,国产成人亚洲精品,亚洲乱码日产精品BD在线观看

觸屏版
全國服務(wù)熱線：0571-87205688

價格查詢批量查詢一鍵轉(zhuǎn)入

查詢

或者

立即發(fā)布需求

昵稱：聚擎

接單：558 關(guān)注TA

達(dá)標(biāo)率 0%

博文分類

SEO如何處理采集內(nèi)容（中）

作者：聚擎瀏覽：219次發(fā)布時間：2017-06-28

評論

贊0

　上回說道處理采集內(nèi)容的兩個先后步驟：

　　對原始內(nèi)容的處理

　　對處理后內(nèi)容進(jìn)行組織

　　第一塊，對原始內(nèi)容的處理，上篇主要針對html源碼信息的處理，但沒說對文本信息該如何處理。

　　下面分享下本渣渣曾經(jīng)使用的一些，對采集內(nèi)容文本的處理方式…

　　對原始采集內(nèi)容文本信息的處理

　　對元數(shù)據(jù)的處理，這邊忽略，因為元數(shù)據(jù)主要是添加邏輯上的映射。比如我一個企業(yè)黃頁的網(wǎng)站，去抓了“XXX公司的規(guī)模、商標(biāo)、年營業(yè)額、法人信息”等元數(shù)據(jù)，我需將這些元數(shù)據(jù)與本站庫內(nèi)對應(yīng)的企業(yè)做個關(guān)聯(lián)即可。因為元數(shù)據(jù)屬于短文本，即采即上，無需做重復(fù)性方面的處理。

seo內(nèi)容

　　如果采集內(nèi)容是連續(xù)大段的長文本，為了保證SEO效果，對html源碼處理后，也可以進(jìn)行文本的處理。

　　文本信息處理，包括標(biāo)題和正文兩部分（不考慮人工修改，只考慮批量處理）

　　標(biāo)題

　　要我說SEO最重要的點、最最核心的點，就是“詞”，其他的SEO手法、技巧都是在“選對詞”的基礎(chǔ)上才有大效果。

　　最終目的是讓標(biāo)題中出現(xiàn)用戶可能會搜索的詞，詳情頁標(biāo)題中的詞最好是有一點點搜索量的、百度搜索結(jié)果少的，而不是熱詞、誰都搶著做的詞。

　　首先一個網(wǎng)頁標(biāo)題出現(xiàn)的關(guān)鍵詞越熱門，被收錄的幾率越低，這是可以肯定的，所以不要58趕集這些大站點做啥詞，一個采集站也跟著做，除非本身權(quán)重高，否則基本沒戲的。

　　其次，在垂直行業(yè)領(lǐng)域和充滿個性化搜索內(nèi)容的領(lǐng)域，競爭小且有些流量的詞可以挖出很多的。垂直領(lǐng)域的這些詞不容易找，因為需要對行業(yè)的理解，僅靠SEO工具不容易發(fā)現(xiàn)。

　　個性化搜索內(nèi)容領(lǐng)域，如編程開發(fā)、娛樂八卦等，這類領(lǐng)域永遠(yuǎn)充滿個性化的搜索詞，隨著時間的推移會源源不斷的產(chǎn)生新的搜索行為，只要搜索引擎不完蛋，這個領(lǐng)域就永遠(yuǎn)充滿搜索流量，所以仔細(xì)觀察，好些活的挺長的流量站，內(nèi)容選型大多符合這個特性，不像“招聘、二手車”之類的行業(yè)，用戶的搜索行為基本是不變的，幾個站都搶同一批詞，都飽和白熱化了，流量自然不好做。

　　采集標(biāo)題如何插入搜索詞

　　如果采集的目標(biāo)網(wǎng)站，他們的標(biāo)題本身就不符合SEO，比如抓了一堆新聞標(biāo)題，如何讓標(biāo)題盡可能的集中用戶可能會搜的詞？本渣渣之前嘗試過這些方法：

　　方法一：精簡原始標(biāo)題

　　步驟如下：

　　對原始標(biāo)題分詞

　　去除停止詞

　　獲取詞綴詞性

　　去除修飾詞，如形容詞、副詞、介詞…，保留原標(biāo)題主謂賓，獲取句子主干

　　基于python的jieba模塊實現(xiàn)，要刪除的修飾詞可以預(yù)先分析大量的標(biāo)題來提取，追加到字典中。github有現(xiàn)成的提取句子主干的輪子，好像用的nltk。

　　貌似1688部分產(chǎn)品頁的title就是這么搞的，把用戶發(fā)布的產(chǎn)品名中一些無關(guān)大雅的詞綴干掉，提取主干放到title標(biāo)簽中。

　　方法二：插入搜索詞

　　步驟如下：

　　搭建xunsearch或其他的開源搜索，對采集標(biāo)題創(chuàng)建索引

　　用提前準(zhǔn)保好的搜索詞（就是要做的那些詞）依次到搜索接口中搜索

　　對搜索結(jié)果中出現(xiàn)的標(biāo)題前方插入當(dāng)前搜索詞

　　比如原標(biāo)題是：“斗魚美女主播直播睡覺一夜狂瀾20萬”…..，我要做的詞有“斗魚美女直播”，則標(biāo)題前插入關(guān)鍵詞：“[斗魚美女直播]斗魚美女主播直播睡覺一夜狂瀾20萬”

　　當(dāng)然也可以：“{強行插入的搜索詞}{精簡后的原始標(biāo)題}”

　　方法三：插入當(dāng)前標(biāo)題已包含搜索詞的衍生詞、相關(guān)搜索詞

　　步驟如下：

　　抓取標(biāo)題已包含搜索詞的百度相關(guān)搜索或下拉框，或者通過Word2vec算法分析其他抓取內(nèi)容正文，獲取該搜索詞的同義詞..

　　標(biāo)題中插入相關(guān)搜索或下拉框的詞

　　如：”[{百度相關(guān)搜索詞1}]{精簡標(biāo)題}”、“[{下拉框推薦詞1}{原始標(biāo)題}]”……相互組合啦……

　　正文

　　正文的處理主要是針對重復(fù)性，盡量降低與原始內(nèi)容的相似性，本渣渣用過以下方法：

　　正文開頭、結(jié)尾處插入隨機文本

　　比如插入當(dāng)前標(biāo)題包含搜索詞的相關(guān)搜索詞：“本文包含其他主題：{相關(guān)搜索詞1} {相關(guān)搜索詞2} {相關(guān)搜索詞3}…”

　　比如插入當(dāng)前頁面的歷史referer詞，“用戶曾經(jīng)通過 {referer詞1} {referer詞2} {referer詞3}…搜索到本頁”

　　比如提前準(zhǔn)備一些能夠通用的文本模板，隨機調(diào)用

　　修改正文內(nèi)容

　　基于pagerank提取關(guān)鍵詞，textrank算法提取文本摘要，其實就是把正文內(nèi)容精簡，提取主干信息，可能最終獲得原始內(nèi)容50%左右的字?jǐn)?shù)。

　　為了防止字?jǐn)?shù)過少，可以提前用k-means和tfidf，找出當(dāng)前文章的相似文章，可以提取它們正文字?jǐn)?shù)最長的段落的摘要，加到當(dāng)前的文章中用作字?jǐn)?shù)上的補全。

　　這樣基本上文章是讀的通的，符合中文語法，且原始正文是以詞綴為粒度的刪減，所以一定程度能夠減少搜索引擎三字一判的重復(fù)性識別，對用戶和搜索引擎都相對友好，雖然肯定比不上人工編輯的質(zhì)量，但比市面上粗暴的同義詞替換、段落增刪的軟件比起來好很多。比中文原封不動不改好一些。

上一篇：SEO如何處理采集內(nèi)容 下一篇：大型SEO網(wǎng)站定位和優(yōu)化策略深度分析

評論(0人參與，0條評論)

發(fā)布評論

博文分類

SEO如何處理采集內(nèi)容（中）

猜你喜歡

評論(0人參與，0條評論)

最新評論

博文分類

SEO如何處理采集內(nèi)容（中）

猜你喜歡

評論(0人參與，0條評論)

最新評論

評論(0人參與，0條評論)