藍天采集器免費下載,藍天采集器規(guī)則配置詳細教程
藍天采集器規(guī)則,什么是藍天采集器?藍天采集器采用的php+mysql開發(fā)可部署在云端服務器,實現(xiàn)電腦端、移動端使用瀏覽器即可采集數(shù)據(jù),,藍天采集器的規(guī)則相對于來說也不是這么簡單的。今天給大家分享一款免費萬能的采集器,只需要輸入關(guān)鍵詞就能采集全網(wǎng)文章,或輸入域名指定采集網(wǎng)站文章。還支持批量關(guān)鍵詞采集(詳細參考圖片一、二、三、四、五、)萬能采集器可對接任何cms系統(tǒng),免登錄實時發(fā)布數(shù)據(jù)。
藍天采集器的規(guī)則介紹:
“規(guī)則”支持:(*)(通配符)、正則表達式,使用[內(nèi)容](通用匹配)或捕獲組(正則捕獲組)將匹配的數(shù)據(jù)保存為標簽,在“拼接內(nèi)容”中引用[內(nèi)容N]標簽組成結(jié)果
[內(nèi)容]和捕獲組的區(qū)別:[內(nèi)容]會自動轉(zhuǎn)換成固定格式捕獲組:(?
而捕獲組:(?,可以編寫任意正則表達式
[\s\S]*?)
[內(nèi)容]適用于精準度不高的通用匹配,捕獲組適用于精準匹配
默認為單個匹配,多個匹配可勾選“允許匹配多個元素”
藍天采集器的規(guī)則分類介紹:
public function param_option_category(){
$catsDb=$this->db()->table('__TERMS__')->select();
$catList=array();
foreach($catsDb as $cat){
$catList[$cat['term_id']]=$cat['name'];
return$catList;
藍天采集器的規(guī)則配置介紹
//CMS全稱必須與你插件的cms程序名一致,$cmsPath為cms的根目錄路徑
public function cms_db_CMS全稱($cmsPath){
//請讀取cms的配置文件并將數(shù)據(jù)庫保存為以下數(shù)組形式后返回,可參考BaseCms.php中的其它cms_db_方法
$cmsDb=array(
'db_type' => 'mysql',//數(shù)據(jù)庫類型
'db_user' => '',//用戶
'db_pwd' => '',//密碼
'db_host' => '',//數(shù)據(jù)庫主機
'db_port' => 3306,//端口
'db_name' => '',//數(shù)據(jù)庫名稱
'db_charset' => 'utf8',//數(shù)據(jù)庫編碼
'db_prefix' => '',//表前綴
return$cmsDb;
藍天采集器發(fā)布數(shù)據(jù)介紹
* 導入數(shù)據(jù)
* 必須以數(shù)組形式返回:
* id(必填)表示入庫返回的自增id或狀態(tài)
*target(可選)記錄入庫的數(shù)據(jù)位置(發(fā)布的網(wǎng)址等)
*desc(可選)記錄入庫的數(shù)據(jù)位置附加信息
*error(可選)記錄入庫失敗的錯誤信息
* 入庫的信息可在“已采集數(shù)據(jù)”中查看
*return array('id'=>0,'target'=>'','desc'=>'','error'=>'');
public function runImport($params){
print_r($params);die();
returnarray('id'=>0,'target'=>'','desc'=>'','error'=>'');
$params數(shù)組即參數(shù)值列表,打印出來可發(fā)現(xiàn),鍵名就是參數(shù)的變量名,值是最終處理后的結(jié)果,直接調(diào)用$params[變量名]便可得到參數(shù)的值
runImport方法必須返回數(shù)組,可以做網(wǎng)址排重、數(shù)據(jù)記錄等作用
應用創(chuàng)建好后可在“后臺?云端?已下載?應用程序”中看到,創(chuàng)建的文件則在“根目錄/app/標識名”中
注意:應用目錄下的index.php為入口文件請勿修改,標識名.php為應用配置文件(建議不要直接修改,而是在“應用?管理?開發(fā)應用”中編輯)
應用偽靜態(tài)配置文件在藍天采集器根目錄:nginx.conf(nginx),.htaccess(apache),web_config(iis)