火車頭采集

火車頭采集

火車頭采集，適合小白站長，零編程基礎(chǔ)采集，創(chuàng)建任務(wù)填入要采集的網(wǎng)址，選擇字段就可以方便的采集數(shù)據(jù)。火車頭采集可以自動識別字段也可以手動選擇字段，并且字段數(shù)據(jù)可以用Javascript編程處理，可以擴展庫，使處理數(shù)據(jù)更加靈活。傳統(tǒng)的采集軟件只能采集頁面中的元素，火車頭采集不但可以采集頁面元素，還可以獲取瀏覽器請求中獲取的連接地址，可以方便地采集音頻、視頻等。

火車頭采集可以實現(xiàn)登錄與否都可采集、加密與否都可采集、動態(tài)與否都可采集、圖片文字都可采集。規(guī)則簡單模擬手工操作，列表規(guī)則智能一鍵生成，復(fù)雜規(guī)則現(xiàn)成模板支持。全能可視化頁面選擇助手，規(guī)則定時定量采集，批量地址自動采集，多種自動翻頁采集，數(shù)據(jù)智能去重處理，規(guī)則并行加速采集。跨網(wǎng)站數(shù)據(jù)采集處理，多規(guī)則數(shù)據(jù)流協(xié)同，強大靈活的指令集。

火車頭采集是網(wǎng)頁數(shù)據(jù)采集工具，火車頭采集擁有強大的內(nèi)容采集和數(shù)據(jù)過濾功能，能將網(wǎng)站采集的數(shù)據(jù)發(fā)布到遠(yuǎn)程服務(wù)器。火車頭采集基于JAVA語言開發(fā)，是平臺無關(guān)的可以在任何系統(tǒng)上運行。火車頭采集采用分布式架構(gòu)可以輕易的部署爬蟲集群。

火車頭采集分WEB服務(wù)端和EXE應(yīng)用，WEB服務(wù)端不干預(yù)EXE應(yīng)用的邏輯只為EXE應(yīng)用提供可視化的操作界面。EXE應(yīng)用完全由用戶部署管理，通過WEB服務(wù)端對EXE應(yīng)用的接入，火車頭采集可以對EXE應(yīng)用進行可視化的管理，如：可視化的規(guī)則配置、實時采集日志查看，可配置多種版本的采集規(guī)則。

火車頭采集提供采集規(guī)則有效性的檢測功能(網(wǎng)頁變動監(jiān)控)，支持錯誤發(fā)送郵件通知。提供同步采集API，可以異步采集方式。提供數(shù)據(jù)查詢API，可以JSON、RSS(快速創(chuàng)建自己的Feed)的數(shù)據(jù)返回格式。可以并發(fā)速率配置。提供定時、循環(huán)多種采集計劃任務(wù)配置。提供控制臺實時查看采集日志，可以日志文件查看。

火車頭采集可以分布式爬蟲部署，支持按爬蟲速率、隨機選擇，順序選擇的負(fù)載均衡方式。提供采集任務(wù)的備份與恢復(fù)功能。提供嵌套采集功能，解決數(shù)據(jù)分布在多個頁面的情況。循環(huán)匹配支持?jǐn)?shù)據(jù)合并功能，解決一篇文章分成多頁的情況。火車頭采集支持正則、XPath、CSSPath多匹配方式。提供基于 XPath 的可視化配置功能。提供網(wǎng)址抓取插件、數(shù)據(jù)過濾插件、文件保存插件、數(shù)據(jù)發(fā)布插件四種插件，讓火車頭采集適應(yīng)更多更復(fù)雜的需求。

火車頭采集