織夢采集
織夢采集,整合了織夢DEDE發布接口,提供有織夢自動采集、織夢自動更新、織夢自動發布等強大的功能,讓站長們可以輕松地建立織夢網站或者織夢CMS站群,織夢CMS作為開源的程序,能配上織夢采集管理,將會幫助站長更好的管理網站和網站建設。
網站的核心是什么?是內容,雖然說對于seo來說,最好是能夠進行偽原創、甚至原創,但是很多站長每天并不一定有太多的的時間來進行內容的創作。于是很多站長開始想法子進行織夢采集內容從而填充網站的內容。站長最大的心愿是提供最豐富的網站內容,吸引更多地訪問量;織夢采集好比一雙慧眼,讓您看得更遠,獲得更多。
站長希望將別人的整站織夢采集數據下載到自己的網站里或者將別人網站的一些內容織夢采集保存到自己的服務器上。織夢采集從內容中抽取相關的字段,發布到自己的網站系統中。有時需要將網頁相關的文件也保存到本地,如圖片、附件等。
織夢采集會定時從同一網站上抓取內容,希望已經抓取的內容不要再發布到網站系統中。對于一些網站,需要登陸才能獲取頁面。站長希望通能夠通過一個內容列表頁面獲取所有的相關內容,織夢采集包括內容列表的其它分頁。當第二次抓取相同網站時,織夢采集不要再重復第一次的設定。
織夢采集多樣化的采集目標,信息分布在各種信息存儲系統中,各種存儲系統有著各自的交互機制,需要織夢采集提供多種并可擴展的連接模塊。織夢采集多樣化的數據格式,信息以多種形式存在,如網頁、word文檔、pdf等。這些不同的格式數據需要織夢采集采用不同的采集機制。
織夢采集分布式海量數據,由于網絡通信的延時和網絡帶寬的限制,并發多線程通信能夠有效地減低延時和搶奪資源。織夢采集數據橫向和縱向采集,需要織夢采集自動采集數據的下一頁;自動采集數據的關聯附件;自動根據當前采集結果采集下一數據。站長操作簡單、快捷,多樣且復雜的數據格式增加用戶的作業難度,用戶希望所見及所得,織夢采集及時提供相應的操作提示信息。
織夢采集實現網站內容采集的方法,獲取被采集的頁面的內容,ASP常用獲取被采集的頁面的內容方法:
用serverXMLHTTP組件獲取數據
Function GetBody(weburl)
'創建對象
Dim ObjXMLHTTP
Set ObjXMLHTTP=Server.CreateObject("MSXML2.serverXMLHTTP")
'請求文件,以異步形式
ObjXMLHTTP.Open "GET",weburl,False
ObjXMLHTTP.send
While ObjXMLHTTP.readyState <> 4
ObjXMLHTTP.waitForResponse 1000
Wend
'得到結果
GetBody=ObjXMLHTTP.responseBody
'釋放對象
Set ObjXMLHTTP=Nothing
End Function
調用方法:GetBody(文件的URLf地址)
織夢采集或者用XMLHTTP組件獲取數據
Function GetBody(weburl)
'創建對象
Set Retrieval = CreateObject("Microsoft.XMLHTTP")
With Retrieval
.Open "Get", weburl, False, "", ""
.Send
GetBody = .ResponseBody
End With
'釋放對象
Set Retrieval = Nothing
End Function
調用方法:GetBody(文件的URLf地址)
這樣獲取的數據內容還需要進行編碼轉換才可以使用
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
調用方法:BytesToBstr(要轉換的數據,編碼)'編碼常用為GB2312和UTF-8。
147SEO » 織夢采集-147SEO