網頁采集器-147SEO
網頁采集器,讓站長可以簡單數據采集、網頁采集、網頁爬蟲插件。只需點擊3次即可輕松完成多頁自動采集爬取,內置強大的多級網頁采集,無需任何編碼,不需要配置采集規則。網頁采集器可視化創建采集跨多頁信息的自動規則,讓網站所有數據安全地存儲在本地,具有雙重保護,網頁采集器自動運行計劃任務,定時增量進行關鍵詞泛采集或者指定采集。
網頁采集器不同于傳統的爬蟲,網頁采集器是一個完全受站長控制的網頁爬蟲腳本。所有的執行規則由站長來定義。只需打開一個頁面,讓網頁采集器自動識別表格數據或選擇要手動抓取的元素,然后告知網頁采集器如何在頁面之間(甚至站點之間)導航(它也會嘗試自動查找導航按鈕)。 網頁采集器可以智能地理解數據模式并通過自動導航頁面來提取所有數據。
網頁采集器的功能以及作用:自動表格數據識別;自動列表翻頁識別;多網頁數據采集或轉化;采集圖片到本地或者云端;超簡單登錄后內容采集;網頁采集器的OCR方式識別加密字符或者圖片內容;批量URL地址,批量關鍵詞查詢采集。網頁采集器的自動iFrame內容采集支持,數據變化監控和實時通知,動態內容采集(JavaScript + AJAX),多種翻頁模式支持。
網頁采集器可以跨網站抓取或數據轉化,增量數據采集,加入了可視化編輯采集規則,無限數據導出到Excel或CSV文件。網頁采集器加入了100+語言轉換,通過webHook無縫銜接網站自己的系統,或者Zapier等平臺,站長無需學習python, PHP, JavaScript,xPath,Css,JSON,iframe等技術技能。
網頁采集器的擴展可幫助應用實現文件輸入輸出、驗證碼識別、圖片上傳下載、數據列表處理、數學公式計算、API調用等功能。網頁采集器模擬網頁執行的方式能做到動態抓取網頁內容,模擬瀏覽網頁,鼠標點擊、鍵盤輸入、頁面滾動等事件,這是搜索引擎爬蟲無法做到的。對于有訪問限制的網站,網頁采集器采用防屏蔽BT分發機制可解決此問題,無須設置代理IP,將任務分發運行。
網頁采集器可配置多種網站的采集規則,提供采集規則有效性的檢測功能(網頁變動監控),支持錯誤發送通知。網頁采集器同步采集API,支持異步采集方式。網頁采集器有數據查詢API,支持JSON、RSS(快速創建自己的Feed)的數據返回格式,加入了可并發速率配置。網頁采集器能夠定時、循環多種采集計劃任務配置,可在控制臺實時查看采集日志,支持日志文件查看。
網頁采集器提供分布式爬蟲部署,支持按爬蟲速率、隨機選擇,順序選擇的負載均衡方式。網頁采集器的采集任務的備份與恢復功能,嵌套采集功能,解決數據分布在多個頁面的情況,循環匹配支持數據合并功能,解決一篇文章分成多頁的情況。網頁采集器配置了正則、XPath、CSSPath多匹配方式,基于 XPath 的可視化配置功能。網頁采集器可生成網址抓取插件、數據過濾插件、文件保存插件、數據發布插件四種插件,讓網頁采集器適應更多更復雜的需求。
147SEO » 網頁采集器-147SEO