當(dāng)前位置:首頁 >  站長 >  網(wǎng)站運(yùn)營 >  正文

采集程序設(shè)計(jì)經(jīng)驗(yàn)交流(一) 前言

 2009-04-05 21:55  來源:   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過

“小網(wǎng)站本不需要維護(hù),只是因?yàn)槟愕某绦蛱苛?,所以你成了無休止的網(wǎng)站維護(hù)者。”—沉默的海

前言

經(jīng)常有朋友在Q群(75604923)里問起采集的相關(guān)問題,每次針對(duì)個(gè)人回答的時(shí)候,總是無法說得很全面,很多朋友表示不滿意,今天發(fā)表此文,詳細(xì)介紹一下采集程序的設(shè)計(jì)思路。其實(shí)“沉默的海”本是一名業(yè)余ASP愛好者,ASP綜合技術(shù)水平應(yīng)該說是一個(gè)“二把刀”。但對(duì)于采集程序的編寫,應(yīng)該說還有點(diǎn)研究,因?yàn)槲沂且驗(yàn)椴杉绦虿琶陨暇幊獭⒚陨螦SP,也是從這里開始了自己的編程之路。

一、 采集程序的作用。

這個(gè)問題也許不用多說,每個(gè)站長可能都感覺特別的需要,因?yàn)槲覀兙Ρ鼐褂邢?,不象那些大的網(wǎng)絡(luò)公司,有專門的新聞?dòng)浾吆途W(wǎng)絡(luò)寫手。這樣以來,要想使自己的網(wǎng)站內(nèi)容豐富起來,借簽別的網(wǎng)站上的內(nèi)容無疑成了一個(gè)最好的辦法,也就是這個(gè)原因,數(shù)以千計(jì)的站長不知不覺中成了“復(fù)制粘貼”的操作手,在和站長朋友的聊天中得知,多數(shù)站長每天做的工作就是“復(fù)制粘貼”。這是一個(gè)多么枯燥的工作啊,但,為了自己的希望也不得不去做這些最讓人討厭的事情。

這樣以來,采集程序成為站長們必不可少的一個(gè)工具,給站長們帶來了很多的便利,即使我們的網(wǎng)站內(nèi)容得到了豐富,又節(jié)省了很多的精力和時(shí)間。(和也許可以作為采集程序示例網(wǎng)站,無需要任何更新,網(wǎng)站永遠(yuǎn)都是新的。)

但,有多站長卻又不會(huì)自己設(shè)計(jì)采集程序,從網(wǎng)上下載的程序要么是收費(fèi)的,要么是功能不全的,往往不能讓人滿意。即便是收費(fèi)的,用起來也不是十分方便,因?yàn)樾枰芏嗍止さ牟僮鳌?/p>

“沉默的海”認(rèn)為:采集程序要想真正發(fā)揮其方便快捷的優(yōu)勢(shì),最好的一個(gè)辦法是針對(duì)自己的網(wǎng)站量身設(shè)計(jì),而后和網(wǎng)站集成在一起,成為網(wǎng)站的一部分,只有這樣,才能算是一個(gè)成功的采集程序。

可是,采集程序怎么做呢?難嗎?

二、 采集程序怎么做。

“沉默的海”認(rèn)為,采集程序設(shè)計(jì)一點(diǎn)都不難,只要有一些ASP編程常識(shí),我覺得一天之內(nèi)學(xué)會(huì)它,是沒有問題的。(相信我的話,你就把文章看完,我保證不會(huì)讓你失望;不相信我的話也請(qǐng)你看完,我保證看完后你會(huì)相信我的話。)

采集程序的基本原理其實(shí)很簡(jiǎn)單:包括兩個(gè)步驟:

1、 下載目標(biāo)網(wǎng)頁;

大家知道,采集程序幫我們做的工作其實(shí)就是“復(fù)制和粘貼”,那么要把一個(gè)網(wǎng)站復(fù)制下來,首頁你需要把網(wǎng)頁打開啊,這個(gè)過程其實(shí)就是下載目標(biāo)網(wǎng)頁,只不過我們不是人工下載,而是利用程序來完成它。

這里有“核心技術(shù)”:XMLHTTP,它可以把網(wǎng)頁下載以備下一步的使用。

2、 提取網(wǎng)頁中我們需要的內(nèi)容;

上一步我們完成了第一步:下載網(wǎng)頁。

但并不是所有下載的內(nèi)容都是我們需要的,所以還要做的工作就是,提取我們需要的內(nèi)容,去除不需要的,存入數(shù)據(jù)庫。這一步的主要技術(shù)是:正則表達(dá)式。

三、 做什么樣的采集程序。

做了以上兩步,應(yīng)該說一個(gè)完整的采集程序已經(jīng)完成了。它可以采集到我們需要的內(nèi)容,而后存入數(shù)據(jù)庫,供我們使用??墒牵@是我們真正需要的嗎?顯然不是,因?yàn)槲覀兗热灰貌杉绦騺碇С治覀兊木W(wǎng)站,那就要用它來完成幾乎所以的工作。我認(rèn)為:如果你的網(wǎng)站加了采集程序,那么即使長年不維護(hù),網(wǎng)站依然是新的,這樣才算是成功的。

上面的采集程序顯然做不到,因?yàn)槟氵€得啟動(dòng)采集程序,然后把數(shù)據(jù)導(dǎo)入網(wǎng)站的數(shù)據(jù)庫,然后生成html,等等等等,還有很多工作需要我們來做。我們理想中的采集程序是不需要人工來做任何工作的,所以在完成采集程序之后我們還要做一些配套的程序,以保證采集程序的運(yùn)行,和與網(wǎng)站的完美集成。

1、 自動(dòng)啟動(dòng)采集程序;

2、 將采集數(shù)據(jù)直接寫入網(wǎng)站數(shù)據(jù)庫;

3、 配套生成html等后續(xù)工作。

做了以上三點(diǎn),我們才可以說自己做了一套還算可以的采集程序,那么我們具體應(yīng)該怎么做呢,請(qǐng)看《采集程序設(shè)計(jì)經(jīng)驗(yàn)交流(二)—下載網(wǎng)頁》。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦