新聞采集
新聞采集,能采集到國內(nèi)新聞源文章,從文章的數(shù)據(jù)容量來說,遠(yuǎn)遠(yuǎn)的滿足了網(wǎng)站對文章的需求,對文章有嚴(yán)苛要求的用戶,對文章質(zhì)量要求會更高,新聞采集的文章能追溯到15年前,很多搜索引擎因?yàn)榉?wù)器數(shù)據(jù)量龐大,都會逐步刪除裁剪掉十年前的收錄索引,因此采集幾年十年前的文章發(fā)布,對蜘蛛來說,可視為原創(chuàng)。
新聞采集在保存內(nèi)容的時(shí)候,會自動生成時(shí)間戳TXT,每個(gè)txt容量為50Kb,超出容量后會重新創(chuàng)建txt繼續(xù)保存,這個(gè)功能是為網(wǎng)站或者站群設(shè)計(jì),在大數(shù)據(jù)高頻率運(yùn)行讀取的站群系統(tǒng),如果TXT容量大,比如有的新手站長在放TXT的時(shí)候,文件幾兆甚至有的幾十兆,站群在讀取txt數(shù)據(jù)的時(shí)候會造成cpu很高,甚至堵塞,新聞采集為了讓網(wǎng)站和站群更高效率運(yùn)行,小編建議大家在放置txt的時(shí)候文件大小不要超過50kb,不光是文章,關(guān)鍵詞域名等文本txt也要嚴(yán)格按照這個(gè)文件大小。
首次采集后,新聞采集會建立標(biāo)題文本數(shù)據(jù)庫,采集到的標(biāo)題不會重復(fù)采集,新聞采集到的標(biāo)題都是唯一的,絕不會重復(fù)。100萬標(biāo)題數(shù)據(jù)足夠網(wǎng)站站長操作所有大數(shù)據(jù)站群,不論是做個(gè)人網(wǎng)站,或者內(nèi)頁站群,目錄站群,新聞熱詞站群,新聞采集都能滿足你的需求。
有了新聞采集的站長不再需要寫采集規(guī)則了,因?yàn)椴皇撬腥说亩紩懙模乙膊贿m合所有的站點(diǎn)。新聞采集還可以采集未收錄的文章,一般的網(wǎng)站都是可以采集的。新聞采集6大功能:查收錄,查頁面狀態(tài)、采未收錄文章、采全部文章、判斷原創(chuàng)度、設(shè)置文章字?jǐn)?shù)。
采用了智能采集,不用編寫采集規(guī)則(正則表達(dá)式)照樣可以采集新聞內(nèi)容。具有無限制采集功能,可采集遠(yuǎn)程圖片到本地,并自動選擇適合的圖片來生成新聞內(nèi)容縮略圖。新聞采集所有新聞頁面全部采用靜態(tài)頁面(.htm文件)生成,極大地提高了服務(wù)器的負(fù)載能力(根據(jù)需要也可以生成.aspx,shtml等類型文件)。可把RSS新聞采集成靜態(tài)頁面文件,新聞采集有集成企業(yè)級流量分析統(tǒng)計(jì)系統(tǒng),讓站長清楚網(wǎng)站訪問情況。新聞采集所見所得的采集,智能記憶采集,不會重復(fù)采集,強(qiáng)大的實(shí)時(shí)采集,分頁批量采集等。
新聞采集的實(shí)現(xiàn)原理,也在這里分享給大家,新聞采集通過python在獲取html方面十分方便,寥寥數(shù)行代碼就可以實(shí)現(xiàn)我們需要的功能。代碼如下:
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
page.close()
return html
我們都知道html鏈接的標(biāo)簽是“a”,鏈接的屬性是“href”,也就是要獲得html中所有tag=a,attrs=href 值。查閱了資料,一開始我打算用HTMLParser,而且也寫出來了。但是它有一個(gè)問題,就是遇到中文字符的時(shí)候無法處理。
class parser(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'a':
for attr, value in attrs:
if attr == 'href':
print value
os.getcwd()#獲得當(dāng)前文件夾路徑
os.path.sep#當(dāng)前系統(tǒng)路徑分隔符 windows下是“\”,linux下是“/”
#判斷文件夾是否存在,如果不存在則新建一個(gè)文件夾
if os.path.exists('newsdir') == False:
os.makedirs('newsdir')
#str()用來將某個(gè)數(shù)字轉(zhuǎn)為字符串
i = 5
str(i)