3.1 成立原創項目組,打持久戰
面對挑戰,為了提高搜索引擎用戶體驗、為了使優質原創者原創網站得到應有的收益、為了推動中文互聯網的前進,我們抽調大量人員組成原創項目組:技術、產品、運營、法務等等,這不是臨時組織不是1個月2個月的項目,我們做好了打持久戰的準備。
3.2 原創識別“起源”算法
互聯網動輒上百億、上千億的網頁,從中挖掘原創內容,可以說是大海撈針,千頭萬緒。我們的原創識別系統,在百度大數據的云計算平臺上開展,能夠快速實現對全部中文互聯網網頁的重復聚合和鏈接指向關系分析。首先,通過內容相似程度來聚合采集和原創,將相似網頁聚合在一起作為原創識別的候選集合;其次,對原創候選集合,通過作者、發布時間、鏈接指向、用戶評論、作者和站點的歷史原創情況、轉發軌跡等上百種因素來識別判斷出原創網頁;最后,通過價值分析系統判斷該原創內容的價值高低進而適當的指導最終排序。
目前,通過我們的實驗以及真實線上數據,“起源”算法已經取得了一定的進展,在新聞、資訊等領域解決了絕大部分問題。當然,其他領域還有更多的原創問題等待“起源”去解決,我們堅定的走著。
3.3 原創星火計劃
我們一直致力于原創內容的識別和排序算法調整,但在當前互聯網環境下,快速識別原創解決原創問題確實面臨著很大的挑戰,計算數據規模龐大,面對的采集方式層出不窮,不同站點的建站方式和模版差異巨大,內容提取復雜等等問題。這些因素都會影響原創算法識別,甚至導致判斷出錯。這時候就需要百度和站長共同努力來維護互聯網的生態環境,站長推薦原創內容,搜索引擎通過一定的判斷后優待原創內容,共同推進生態的改善,鼓勵原創,這就是“原創星火計劃”,旨在快速解決當前面臨的嚴重問題。另外,站長對原創內容的推薦,將應用于“起源”算法,進而幫助百度發現算法的不足,不斷改進,用更加智能的識別算法自動識別原創內容。
目前,原創星火計劃也取得了初步的效果,一期對部分重點原創新聞站點的原創內容在百度搜索結果中給予了原創標記、作者展示等等,并且在排序及流量上也取得了合理的提升。
最后,原創是生態問題,需要長期的改善,我們將持續投入,與站長攜手推動互聯網生態的進步;原創是環境問題,需要大家來共同維護,站長們多做原創,多推薦原創,百度將持續努力改進排序算法,鼓勵原創內容,為原創作者、原創站點提供合理的排序和流量。
評論(0人參與,0條評論)
發布評論
最新評論