指定網站登錄采集內容教程
快捷導讀
有很多網站,是需要登錄賬號密碼以后,才能采集到目標數(shù)據(jù)的。有的網站登錄時還會需輸入驗證碼。針對這類網站,本文將詳細講解!
針對需要登錄才能采集的網站,我們打開采集批量管理,點擊新增指定采集任務,如圖所示前往設置登錄
輸入登錄網址點擊刷新,打開網頁后和用普通瀏覽器訪問網頁完全一樣,只需要輸入賬號密碼登錄。
列表是最常見的網頁樣式,我們可以通過以下2種方式:
(1) 直接輸入列表頁詳細如下圖
(2)通過我們軟件生成列表頁詳細如下圖
以上是舉例說明:
目標站列表頁:http://zb.bbqseo.com/?cate=2&page=6 當我們點擊下一頁時網址變化為: http://zb.bbqseo.com/?cate=2&page=7
由此可以分析得出,page=6中的數(shù)字就是分頁碼,且是每次加1遞增。(變化的部分的數(shù)字我們用“[[分頁數(shù)]]”代替)根據(jù)目標站具體列表頁數(shù)生成,需這些網址間有著某種關系,比如等差遞增的變化。
軟件上填寫:http://zb.bbqseo.com/?cate=2&page=[[分頁數(shù)]] 目標站有多少列表頁就生成多少頁
我們可以根據(jù)自身的需求去點選我們需要采集的字段,我們也可以隨時對這些字段進行修改、刪除!
當我們點擊列表頁標題后,軟件會自動識別該網頁下的所有標題,我們只需要點擊預覽并設置內容 (注:未識別網頁下的所有標題,我們可用CSS選中器來識別網頁下的所有列表標題)
現(xiàn)在,我們已經處于登錄狀態(tài),通過正常瀏覽需要登錄才能看見的內容,這個時候我們只需要選中內容,登錄可見的內容也會采集進去。
注:點擊空白處,觀察內容是否全部包含。(部分網站不規(guī)范導致點選內容不全面或標題內容連在一起,我們可用CSS選中器來識別網頁中的標題和內容)
批量采集管理任務找到配置好的任務點擊開始采集,我們也可以實時預覽或修改已經采集的內容
相關文章:CSS選擇器案例