九九热精品免费观看-九九热国产视频-九九免费精品视频-九九免费高清在线观看视频-午夜精品国产自在现线拍-午夜家庭影院

爬山虎采集器-免費爬山虎采集器

爬山虎采集器,免費爬山虎采集器

爬山虎采集器,爬山虎采集器是一款數據采集工具,需要一定的編程能力+html代碼能力才會用爬山虎采集器。為了照顧更多新手的朋友這里會給大家推薦一款免費的簡單的采集器。詳細參考圖片

147采集界面.jpg


免費的147采集:通過可視化界面、鼠標點擊即可采集數據、向導模式、用戶無需任何技術基礎,輸入網址,一鍵提取數據。

智能識別:通過智能算法,自動識別分頁,自動識別列表,一鍵采集數據。

網站獨有采集風格:支持只采集圖片或視頻或文檔等支持自定義保存路徑、文件名,或發布到網站后臺。

147發布界面.png


爬山虎采集器教程規則在我們采集商品詳情時,有時我們需要采集商品的櫥窗圖(多張圖片的列表),在此之前我們需要通過點擊圖片,然后手動修改字段XPath。

爬山虎采集器教程規則方法: 通過 右擊圖片 -> 生成XPath -> 生成圖片列表XPath。

147SEO模板.png


爬山虎采集器教程規則使用腳本命令,手動添加一個滾動命令,具體設置滾動幾頁、滾動間隔時間,需要針對具體網站進行測試。第三步設置,在其他設置中,勾選在分頁上執行采集腳本,這樣在每次打開分頁后,都會執行滾動命令。

然后瀏覽器會新建一個內容頁的標簽頁。 在內容標簽頁中,點擊添加字段,然后在瀏覽器中點擊新聞內容,修改字段名稱為內容。爬山虎采集器教程規則修改取值屬性,想要HMTL就使用InnerHTML或者OuterHTML

如果在采集的時候,日志提示"深入采集的URL重復被過濾",可以通過對URL字段加上額外參數,使其不重復。 點擊URL字段的數據處理,添加前后綴,設置后綴字符

147關鍵詞挖掘.jpg


當然,我們需要根據URL的具體情況,爬山虎采集器教程規則設置不同的參數,分為2種情況

URL中不包含 ?,添加后綴字符 ?t={時間戳13}

URL中包含?,添加后綴字符 &t={時間戳13}

然后,在瀏覽器中把滾動條拖到底部。爬山虎采集器教程規則可以看到請求的鏈接,answers...開頭的就是我們需要的請求。 選中,在右側可以查看 json 數據預覽。

找到請求后,選中請求,然后右擊,選擇Copy -> Copy request headers。

147偽原創.png


在復制了 request headers后,我們打開采集器,新建一個任務。首先,在第一步,勾選POST 請求,爬山虎采集器教程規則然后點擊剪切板粘貼 Headers,粘貼完成之后,取消勾選POST 請求。然后選擇 Url 編碼 為UTF-8。

147發布.png


然后點擊下一步,在第二部,我們切換到JSON 引擎。接下來,我們點擊列表模式下的選擇列表。然后我們 就可以添加需要抓取的字段了。點擊添加字段,然后在JSON樹中點擊需要抓取的數據節點。爬山虎采集器教程規則到這里我們就完成了單頁數據的抓取設置。批量生成分頁下面我們再回到第一步,來設置采集分頁的參數。選中offset=后面的8,會彈出批量生成網址窗口,這里我們設置最大100,步長為5。(最多采集100條,這里可以自己定義修改)

然后我們打開Fiddler(需要確認Fiddler是否開啟了https抓包,Options->HTTPS-Decrpt HTTPs Traffic)

數據采集10.png


下一步,窗口切換到微信公眾號的歷史消息窗口,爬山虎采集器教程規則向下滾動,加載更多消息。然后我們窗口切換到Fiddler,在請求列表中找到 mp/profile_ext?action=getmsg&__biz=MjM5NzI1MTY0MQ==&f=json&offset=10= 這樣的JSON請求。選擇Inspectors -->Raw,全選Raw中的文本,復制 ctrl+c。然后打開爬山虎采集器,歷史文章采集,在第一步,點擊 POST請求,點擊 從剪切板粘貼 Header。完成后,我們在網址中找到offset=10這個參數,用鼠標選中10,會自動彈出批量生成網址的窗口,設置起始值為0,最大值為5000,步長為10。 設置完,點擊確定。


轉載請說明出處
147SEO » 爬山虎采集器-免費爬山虎采集器

發表評論

歡迎 訪客 發表評論

一個令你著迷的主題!

查看演示 官網購買
×

服務熱線

微信客服

微信客服