織夢采集
織夢采集,整合了織夢DEDE發(fā)布接口,提供有織夢自動采集、織夢自動更新、織夢自動發(fā)布等強大的功能,讓站長們可以輕松地建立織夢網(wǎng)站或者織夢CMS站群,織夢CMS作為開源的程序,能配上織夢采集管理,將會幫助站長更好的管理網(wǎng)站和網(wǎng)站建設(shè)。
網(wǎng)站的核心是什么?是內(nèi)容,雖然說對于seo來說,最好是能夠進行偽原創(chuàng)、甚至原創(chuàng),但是很多站長每天并不一定有太多的的時間來進行內(nèi)容的創(chuàng)作。于是很多站長開始想法子進行織夢采集內(nèi)容從而填充網(wǎng)站的內(nèi)容。站長最大的心愿是提供最豐富的網(wǎng)站內(nèi)容,吸引更多地訪問量;織夢采集好比一雙慧眼,讓您看得更遠,獲得更多。
站長希望將別人的整站織夢采集數(shù)據(jù)下載到自己的網(wǎng)站里或者將別人網(wǎng)站的一些內(nèi)容織夢采集保存到自己的服務(wù)器上。織夢采集從內(nèi)容中抽取相關(guān)的字段,發(fā)布到自己的網(wǎng)站系統(tǒng)中。有時需要將網(wǎng)頁相關(guān)的文件也保存到本地,如圖片、附件等。
織夢采集會定時從同一網(wǎng)站上抓取內(nèi)容,希望已經(jīng)抓取的內(nèi)容不要再發(fā)布到網(wǎng)站系統(tǒng)中。對于一些網(wǎng)站,需要登陸才能獲取頁面。站長希望通能夠通過一個內(nèi)容列表頁面獲取所有的相關(guān)內(nèi)容,織夢采集包括內(nèi)容列表的其它分頁。當(dāng)?shù)诙巫ト∠嗤W(wǎng)站時,織夢采集不要再重復(fù)第一次的設(shè)定。
織夢采集多樣化的采集目標(biāo),信息分布在各種信息存儲系統(tǒng)中,各種存儲系統(tǒng)有著各自的交互機制,需要織夢采集提供多種并可擴展的連接模塊。織夢采集多樣化的數(shù)據(jù)格式,信息以多種形式存在,如網(wǎng)頁、word文檔、pdf等。這些不同的格式數(shù)據(jù)需要織夢采集采用不同的采集機制。
織夢采集分布式海量數(shù)據(jù),由于網(wǎng)絡(luò)通信的延時和網(wǎng)絡(luò)帶寬的限制,并發(fā)多線程通信能夠有效地減低延時和搶奪資源。織夢采集數(shù)據(jù)橫向和縱向采集,需要織夢采集自動采集數(shù)據(jù)的下一頁;自動采集數(shù)據(jù)的關(guān)聯(lián)附件;自動根據(jù)當(dāng)前采集結(jié)果采集下一數(shù)據(jù)。站長操作簡單、快捷,多樣且復(fù)雜的數(shù)據(jù)格式增加用戶的作業(yè)難度,用戶希望所見及所得,織夢采集及時提供相應(yīng)的操作提示信息。
織夢采集實現(xiàn)網(wǎng)站內(nèi)容采集的方法,獲取被采集的頁面的內(nèi)容,ASP常用獲取被采集的頁面的內(nèi)容方法:
用serverXMLHTTP組件獲取數(shù)據(jù)
Function GetBody(weburl)
'創(chuàng)建對象
Dim ObjXMLHTTP
Set ObjXMLHTTP=Server.CreateObject("MSXML2.serverXMLHTTP")
'請求文件,以異步形式
ObjXMLHTTP.Open "GET",weburl,False
ObjXMLHTTP.send
While ObjXMLHTTP.readyState <> 4
ObjXMLHTTP.waitForResponse 1000
Wend
'得到結(jié)果
GetBody=ObjXMLHTTP.responseBody
'釋放對象
Set ObjXMLHTTP=Nothing
End Function
調(diào)用方法:GetBody(文件的URLf地址)
織夢采集或者用XMLHTTP組件獲取數(shù)據(jù)
Function GetBody(weburl)
'創(chuàng)建對象
Set Retrieval = CreateObject("Microsoft.XMLHTTP")
With Retrieval
.Open "Get", weburl, False, "", ""
.Send
GetBody = .ResponseBody
End With
'釋放對象
Set Retrieval = Nothing
End Function
調(diào)用方法:GetBody(文件的URLf地址)
這樣獲取的數(shù)據(jù)內(nèi)容還需要進行編碼轉(zhuǎn)換才可以使用
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
調(diào)用方法:BytesToBstr(要轉(zhuǎn)換的數(shù)據(jù),編碼)'編碼常用為GB2312和UTF-8。