如何使用火車頭進行大量采集




火車頭是一款可以大量采集原創文章的軟件。
火車頭采集器有哪些好處?
1、通用性強
無論新聞、論壇、視頻、黃頁、圖片、下載類網站,只要通過瀏覽器能看到的結構化的內容,通過指定匹配規則,都能采集到您所需要的內容。
2、穩定、高效
七年磨一劍,軟件不斷更新進步,采集速度快,性能穩定,占用資源少。
3、擴展性強、適用范圍廣
自定義web發布,自定義主流的數據庫的保存和發布,自定義本地php及.net外部編程接口處理數據,讓數據都能為你所用。
火車頭采集器怎么用?
1、首先打開火車頭軟件,打開之后在左邊空白處右鍵新建分組,在箭頭處隨便填寫一個分組名稱,保存。如圖所示:
2、右鍵你剛才創建的分組,點擊新建任務,會彈出一個窗口如下:任務名稱可以填寫你網站的名稱,方便以后采集,站點多了好區分。自動識別不用改,然后第一步點擊右邊的添加,把你要采集的網站網址添加進去完成即可。下邊還一個添加是添加你要采集的規則,從哪個地方采集到哪個地方。比如:<ul>
<li>火車頭采集器</li>
<li>火車頭采集器</li>
<li>火車頭采集器</li>
<li>火車頭采集器</li>
<li>火車頭采集器</li>
</ul>
采集規則就這么填寫 第一個框填寫<ul>,第二個框就填寫</ul>,明白了吧。
3、填寫好之后點擊下邊的測試網址采集。就到了如下圖:點開加號出現你要采集的文章。
4、隨便雙擊一個網址進入第二步,如圖所示:左邊有標題和內容兩個板塊,需要你設置一下,就是你要采集的標題和內容,內容的話,你可以點擊一篇文章查看源文件進去看看文章的起始代碼位置,去截取這段代碼,放到里邊,跟第一步的設置規則類似,這里就不詳細說明了。設置好之后就可以點擊測試一下效果了。
5、弄好之后來到第三步,如圖所示:選中啟用這個框
6、點擊web發布配置管理進入下一個窗口,選擇你要發布的模塊,選擇編碼,然后把你的網站后臺登錄地址寫進去,然后點擊在內置瀏覽器登錄會出現一個小窗口,登錄后臺賬號密碼登錄成功后點擊確定回到當天窗口,點擊獲取列表,會出現你網站的欄目。配置名寫上你的網站名稱即可,點擊保存。關閉本窗口。
7、到這里火車頭采集器的規則就設置好了 接下來就要采集發布了。選中三個復選框,點擊發布軟件就可以開始運行了,采集發布成功后,進你的網站后臺就可以看到你采集到的文章了。