指定網(wǎng)站登錄采集內(nèi)容教程
快捷導(dǎo)讀
有很多網(wǎng)站,是需要登錄賬號(hào)密碼以后,才能采集到目標(biāo)數(shù)據(jù)的。有的網(wǎng)站登錄時(shí)還會(huì)需輸入驗(yàn)證碼。針對(duì)這類網(wǎng)站,本文將詳細(xì)講解!
針對(duì)需要登錄才能采集的網(wǎng)站,我們打開采集批量管理,點(diǎn)擊新增指定采集任務(wù),如圖所示前往設(shè)置登錄
輸入登錄網(wǎng)址點(diǎn)擊刷新,打開網(wǎng)頁(yè)后和用普通瀏覽器訪問(wèn)網(wǎng)頁(yè)完全一樣,只需要輸入賬號(hào)密碼登錄。
列表是最常見的網(wǎng)頁(yè)樣式,我們可以通過(guò)以下2種方式:
(1) 直接輸入列表頁(yè)詳細(xì)如下圖
(2)通過(guò)我們軟件生成列表頁(yè)詳細(xì)如下圖
以上是舉例說(shuō)明:
目標(biāo)站列表頁(yè):http://zb.bbqseo.com/?cate=2&page=6 當(dāng)我們點(diǎn)擊下一頁(yè)時(shí)網(wǎng)址變化為: http://zb.bbqseo.com/?cate=2&page=7
由此可以分析得出,page=6中的數(shù)字就是分頁(yè)碼,且是每次加1遞增。(變化的部分的數(shù)字我們用“[[分頁(yè)數(shù)]]”代替)根據(jù)目標(biāo)站具體列表頁(yè)數(shù)生成,需這些網(wǎng)址間有著某種關(guān)系,比如等差遞增的變化。
軟件上填寫:http://zb.bbqseo.com/?cate=2&page=[[分頁(yè)數(shù)]] 目標(biāo)站有多少列表頁(yè)就生成多少頁(yè)
我們可以根據(jù)自身的需求去點(diǎn)選我們需要采集的字段,我們也可以隨時(shí)對(duì)這些字段進(jìn)行修改、刪除!
當(dāng)我們點(diǎn)擊列表頁(yè)標(biāo)題后,軟件會(huì)自動(dòng)識(shí)別該網(wǎng)頁(yè)下的所有標(biāo)題,我們只需要點(diǎn)擊預(yù)覽并設(shè)置內(nèi)容 (注:未識(shí)別網(wǎng)頁(yè)下的所有標(biāo)題,我們可用CSS選中器來(lái)識(shí)別網(wǎng)頁(yè)下的所有列表標(biāo)題)
六、點(diǎn)選需要采集的內(nèi)容字段詳細(xì)如下圖
現(xiàn)在,我們已經(jīng)處于登錄狀態(tài),通過(guò)正常瀏覽需要登錄才能看見的內(nèi)容,這個(gè)時(shí)候我們只需要選中內(nèi)容,登錄可見的內(nèi)容也會(huì)采集進(jìn)去。
注:點(diǎn)擊空白處,觀察內(nèi)容是否全部包含。(部分網(wǎng)站不規(guī)范導(dǎo)致點(diǎn)選內(nèi)容不全面或標(biāo)題內(nèi)容連在一起,我們可用CSS選中器來(lái)識(shí)別網(wǎng)頁(yè)中的標(biāo)題和內(nèi)容)
批量采集管理任務(wù)找到配置好的任務(wù)點(diǎn)擊開始采集,我們也可以實(shí)時(shí)預(yù)覽或修改已經(jīng)采集的內(nèi)容
相關(guān)文章:CSS選擇器案例
147SEO » 指定網(wǎng)站登錄采集內(nèi)容教程