新版帝國(guó)CMS采集分享,完全免費(fèi)(附下載)
本文主要是給站長(zhǎng)們分享帝國(guó)CMS采集,關(guān)于帝國(guó)CMS采集的一些功能知識(shí)。無(wú)需看全文,直接閱讀本文文章圖片,即可了解帝國(guó)CMS采集相關(guān)。【圖片1,帝國(guó)CMS采集重點(diǎn)1】
帝國(guó)CMS采集系統(tǒng)很好用,無(wú)需會(huì)任何程序,只需在相應(yīng)的采集內(nèi)容加上相應(yīng)的標(biāo)簽即可。
本系統(tǒng)無(wú)論是內(nèi)置的系統(tǒng)模型還是用戶自定義的模型都有自己相應(yīng)的采集。自動(dòng)化內(nèi)容采集的支持,大大降低了內(nèi)容維護(hù)的工作量,并讓網(wǎng)站管理系統(tǒng)與企業(yè)的其它信息化系統(tǒng)無(wú)縫集成,提高了信息的利用率。【圖片2,帝國(guó)CMS采集重點(diǎn)2】
使用簡(jiǎn)單:無(wú)需會(huì)任何程序,只需在相應(yīng)的采集內(nèi)容加上相應(yīng)的標(biāo)簽即可。
多重過(guò)濾:同一鏈接可設(shè)置不重復(fù)采集;設(shè)置采集關(guān)鍵字(不包含不采集);內(nèi)容字符替換;廣告過(guò)濾;整頁(yè)代碼過(guò)濾;過(guò)濾相似信息;過(guò)濾標(biāo)題相同信息;設(shè)置采集記錄數(shù)。
采集區(qū)域更準(zhǔn)確:整體頁(yè)面區(qū)域正則+信息鏈接區(qū)域正則。
支持多種頁(yè)面編碼轉(zhuǎn)換:支持GB2312、BIG5、UTF8、UNICODE編碼轉(zhuǎn)換。【圖片3,帝國(guó)CMS采集重點(diǎn)3】
效率更高:采用分組采集與入庫(kù);支持多線程(節(jié)點(diǎn))采集。
方便性:采集可選是否馬上入庫(kù)(特別對(duì)于掛機(jī)采,非常方便);填寫(xiě)采集正則后可預(yù)覽采集結(jié)果,可驗(yàn)證采集正則的正確性;復(fù)制、清空節(jié)點(diǎn);可選擇“選擇式”與“全部式”入庫(kù);對(duì)采集的臨時(shí)數(shù)據(jù)進(jìn)行管理。【圖片4,帝國(guó)CMS采集重點(diǎn)4】
遠(yuǎn)程保存文件:支持遠(yuǎn)程保存圖片/FLASH/附件,圖片加水印。
采集規(guī)則導(dǎo)出與導(dǎo)入功能。
支持驗(yàn)證字段內(nèi)容為空不采集:支持自定義字段設(shè)置,并且支持多個(gè)字段同時(shí)驗(yàn)證。
支持采集時(shí)間和入庫(kù)時(shí)間間隔設(shè)置:可防止過(guò)度采集被封。
其它特性:支持多列表采集、內(nèi)容分頁(yè)采集。
采集關(guān)鍵的幾個(gè)步驟
一:先建好欄目
二:增加采集節(jié)點(diǎn)(需要選擇欄目)
三:錄入節(jié)點(diǎn)名稱
四:如果有很多頁(yè),只需錄入采集頁(yè)面地址方式二中的內(nèi)容新聞標(biāo)題
很多站長(zhǎng)想要了解正則相關(guān)問(wèn)題,簡(jiǎn)單說(shuō)一下,建議直接看圖片,簡(jiǎn)單方便,不需規(guī)則復(fù)雜配置,完成帝國(guó)CMS采集。
正則:<td>標(biāo)題:<strong>[!–title–]</strong></td>
新聞內(nèi)容正則:<td>內(nèi)容:<font color=”#FF0000″>[!–newstext–]</font></td>
“[!–title–]”與“[【如何提高百度排名】!–newstext–]”分別為“標(biāo)題”字段與“內(nèi)容”字段的正則變量。用于指定我們要采集的內(nèi)容位置。
(3)、由上面我們得出了,帝國(guó)CMS采集正則是把正則變量替換要采集內(nèi)容后的代碼內(nèi)容。格式:
識(shí)別代碼頭部[!–變量名–]識(shí)別代碼尾部
注意:上面的“識(shí)別代碼頭部”一定是要唯一的標(biāo)記。
2、帝國(guó)CMS正則還有表示任意內(nèi)容的字符:“*”
如果“識(shí)別代碼頭部”中有內(nèi)容是變化的,那么我們可以用*代替它。如頁(yè)面源代碼為如下,我們要采集下面的鏈接地址:
<a title=”任意可變內(nèi)容” href=”鏈接地址”>標(biāo)題</a>
通過(guò)使用“*”任意內(nèi)容表示字符,我們可以用下面的正則忽略可變內(nèi)容,獲得地址:
<a title=”*” href=”[!–newsurl–]”>
附加說(shuō)明:[!–newsurl–]為頁(yè)面鏈接地址的正則變量。