火車頭采集規則
火車頭采集規則,是很多站長在網站采集的時候需要用到的一種方式。但是隨著互聯網的發展,通過自定義寫采集規則會顯得越來越麻煩以及低效率。使用火車頭采集規則的站長一定是對網站采集有著強烈的需求,那么怎么完成網站內容的采集呢?就是接下里我要說的,火車頭采集規則實現方法,免規則,簡單高效,無需看全文,著重看文章內的圖片就好了。【看圖一,火車頭采集規則,永久免費】
使用火車頭采集規則采集有分頁的數據 分頁就是目標網站上一個文章分為好幾頁,我們需要設置規則將其全部采到。火車頭采集規則采集要點:采集規則要對每個分頁都適用,分頁規則如果是全部列出,只要第一個頁面的分頁規則就可以了。如果是上下頁,每個頁面的分頁規則也要都適用。【看圖二,火車頭采集規則,批量自動采集發布】
我們先看一下,如果分頁有兩個,前一頁[1] [2]下一頁,火車頭采集規則要做的是要使所寫的規則在兩個頁面中都可以正常采到內容,寫個規則,測試第一頁,成功獲取內容,然后改寫網址為第二個,測試,同樣可以獲得我們要的內容,那么,說明這一步你已經成功了。進入下一步。火車頭采集規則這樣來寫的,兩個頁面都通過。【看圖三,火車頭采集規則,一鍵設置,高效簡單】
現在我們看分頁這里的火車頭采集規則設置,全部列出是在第一頁或每一頁上都有全部的頒布文章的網址,上下頁是沒有將全部的列出。我們這個規則里選全部列出。因此,我們只要在火車頭采集規則第一頁里找好包含所有網址的區域就可以了。【看圖四,火車頭采集規則,采集必備】
<td width="555" colspan="3">
<span style="color:#999999">前一頁</span>
<a href="/graphics/hq/gz/0802/1226877.html" >
[<span style="font-weight: bold">1</span>]</a>
<a href="/graphics/hq/gz/0802/1226877_1.html" >[2]
</a> <a href="/graphics/hq/gz/0802/1226877_1.html" >
下一頁</a> </td>
注意,火車頭采集規則只能采集代碼,不能下載文件.因為這個標簽數據是在網址列表里獲得的,在測試規則時無法對它進行編輯,也就是無法執行一些過濾替換操作,設置完成后,文章內容采集界面就自動列出我們在列表頁設置好的標簽。
火車頭采集規則就不多說了,比較簡單,今天關于火車頭采集規則的采集和設置就寫到這里。這里就不說更多采集規則了,只是說一下火車頭采集規則采集文件的具體配置該如何設置,具體操作主要是在“內容采集規則”里面進行設置,可以通過圖片內來結合閱讀。