火車頭采集
火車頭采集,適合小白站長,零編程基礎(chǔ)采集,創(chuàng)建任務(wù)填入要采集的網(wǎng)址,選擇字段就可以方便的采集數(shù)據(jù)。火車頭采集可以自動識別字段也可以手動選擇字段,并且字段數(shù)據(jù)可以用Javascript編程處理,可以擴展庫,使處理數(shù)據(jù)更加靈活。傳統(tǒng)的采集軟件只能采集頁面中的元素,火車頭采集不但可以采集頁面元素,還可以獲取瀏覽器請求中獲取的連接地址,可以方便地采集音頻、視頻等。
火車頭采集可以實現(xiàn)登錄與否都可采集、加密與否都可采集、動態(tài)與否都可采集、圖片文字都可采集。規(guī)則簡單模擬手工操作,列表規(guī)則智能一鍵生成,復(fù)雜規(guī)則現(xiàn)成模板支持。全能可視化頁面選擇助手,規(guī)則定時定量采集,批量地址自動采集,多種自動翻頁采集,數(shù)據(jù)智能去重處理,規(guī)則并行加速采集。跨網(wǎng)站數(shù)據(jù)采集處理,多規(guī)則數(shù)據(jù)流協(xié)同,強大靈活的指令集。
火車頭采集是網(wǎng)頁數(shù)據(jù)采集工具,火車頭采集擁有強大的內(nèi)容采集和數(shù)據(jù)過濾功能,能將網(wǎng)站采集的數(shù)據(jù)發(fā)布到遠(yuǎn)程服務(wù)器。火車頭采集基于JAVA語言開發(fā),是平臺無關(guān)的可以在任何系統(tǒng)上運行。火車頭采集采用分布式架構(gòu)可以輕易的部署爬蟲集群。
火車頭采集分WEB服務(wù)端和EXE應(yīng)用,WEB服務(wù)端不干預(yù)EXE應(yīng)用的邏輯只為EXE應(yīng)用提供可視化的操作界面。EXE應(yīng)用完全由用戶部署管理,通過WEB服務(wù)端對EXE應(yīng)用的接入,火車頭采集可以對EXE應(yīng)用進行可視化的管理,如:可視化的規(guī)則配置、實時采集日志查看,可配置多種版本的采集規(guī)則。
火車頭采集提供采集規(guī)則有效性的檢測功能(網(wǎng)頁變動監(jiān)控),支持錯誤發(fā)送郵件通知。提供同步采集API,可以異步采集方式。提供數(shù)據(jù)查詢API,可以JSON、RSS(快速創(chuàng)建自己的Feed)的數(shù)據(jù)返回格式。可以并發(fā)速率配置。提供定時、循環(huán)多種采集計劃任務(wù)配置。提供控制臺實時查看采集日志,可以日志文件查看。
火車頭采集可以分布式爬蟲部署,支持按爬蟲速率、隨機選擇,順序選擇的負(fù)載均衡方式。提供采集任務(wù)的備份與恢復(fù)功能。提供嵌套采集功能,解決數(shù)據(jù)分布在多個頁面的情況。循環(huán)匹配支持?jǐn)?shù)據(jù)合并功能,解決一篇文章分成多頁的情況。火車頭采集支持正則、XPath、CSSPath多匹配方式。提供基于 XPath 的可視化配置功能。提供網(wǎng)址抓取插件、數(shù)據(jù)過濾插件、文件保存插件、數(shù)據(jù)發(fā)布插件四種插件,讓火車頭采集適應(yīng)更多更復(fù)雜的需求。