當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  搜索優(yōu)化 >  正文

爬蟲(chóng)有哪些分類?白話說(shuō)說(shuō)SEO好朋友爬蟲(chóng)

 2022-04-02 17:59  來(lái)源: A5專欄   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

本文大綱:

1、爬蟲(chóng)是什么?反爬蟲(chóng)又是什么?

2、爬蟲(chóng)有哪些分類?

3、爬中流程與搜索引擎工作流程

4、http/https協(xié)議與狀態(tài)碼

5、robots協(xié)議

爬蟲(chóng)是什么?反爬蟲(chóng)又是什么?

這里的爬蟲(chóng)不是我們生活中的爬蟲(chóng),如蜘蛛。這里的爬蟲(chóng)更多指的是網(wǎng)絡(luò)爬蟲(chóng),即我們叫它網(wǎng)頁(yè)蜘蛛或網(wǎng)絡(luò)機(jī)器人。當(dāng)然,在SEO里,叫網(wǎng)頁(yè)蜘蛛更多。

網(wǎng)絡(luò)爬蟲(chóng),是一種按照一定規(guī)則,自動(dòng)地抓取互聯(lián)網(wǎng)上的信息的一種程序。他有一個(gè)英文名叫spider,比如百度網(wǎng)頁(yè)蜘蛛就叫baiduspider,那搜狗的就叫Sogou spider。

這也是我們SEO人員做網(wǎng)站優(yōu)化排名會(huì)聽(tīng)說(shuō)的一個(gè)詞。網(wǎng)站為啥沒(méi)收錄呢?原來(lái)蜘蛛沒(méi)來(lái)抓??!如何看這個(gè)爬蟲(chóng)蜘蛛朋友來(lái)沒(méi)來(lái)呢,讓技術(shù)把網(wǎng)站日志下載給我們,我們就可以判斷了,你說(shuō)算不算好朋友?

百度爬蟲(chóng)是什么?Baiduspider是啥?

Baiduspider是百度搜索引擎的一個(gè)自動(dòng)程序,它的作用是訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè),建立索引數(shù)據(jù)庫(kù),使用戶能在百度搜索引擎中搜索到網(wǎng)站上的網(wǎng)頁(yè)。百度還有哪些蜘蛛呢?如下圖。最多是圈中這個(gè),記得哈~

圖片

反爬蟲(chóng)是什么?

我們以門戶網(wǎng)站舉例,企業(yè)網(wǎng)站也同理哈。門戶網(wǎng)站通過(guò)相應(yīng)的策略和技術(shù)手段,防止爬蟲(chóng)程序進(jìn)行網(wǎng)站數(shù)據(jù)的爬取,這就叫反爬蟲(chóng)。

當(dāng)然,其實(shí)還有反反爬蟲(chóng),即爬蟲(chóng)程序通過(guò)相應(yīng)的策略和技術(shù)手段,破解了門戶網(wǎng)站的反爬蟲(chóng)手段,從而爬取到相應(yīng)的數(shù)據(jù),這就叫反反爬蟲(chóng)。

再白話舉例:你要來(lái)采集我的內(nèi)容(爬蟲(chóng)),我不給你采并且我做防采集(反爬蟲(chóng))。你呢,又搞了更高技術(shù)把我防采集攻破了采集(反反爬蟲(chóng)),這樣理解了吧?

爬蟲(chóng)有哪些分類?

爬蟲(chóng)總共就分兩類:通用爬蟲(chóng)與聚焦爬蟲(chóng)。

通用爬蟲(chóng):簡(jiǎn)單說(shuō)就是盡可能的把網(wǎng)上的所有的網(wǎng)頁(yè)下載下來(lái),放到服務(wù)器里再對(duì)這些網(wǎng)頁(yè)做相關(guān)處理,最后給用戶搜索用,通常指的搜索引擎爬蟲(chóng)。比如:谷歌爬蟲(chóng)、百度爬蟲(chóng)、搜狗爬蟲(chóng)、360爬蟲(chóng)等。

聚焦爬蟲(chóng):它是根據(jù)指定的需求抓取網(wǎng)絡(luò)上指定網(wǎng)站的數(shù)據(jù)。比如:獲取知乎問(wèn)答上的某一問(wèn)題的瀏覽量和回答人數(shù),而不是獲取整個(gè)頁(yè)面中所有數(shù)據(jù)。它也可以理解叫特定爬蟲(chóng)。

上面提到的反爬蟲(chóng)與反反爬蟲(chóng),基本上都是在反這種聚焦爬蟲(chóng)哈,你也可以理解為爬蟲(chóng)攻防戰(zhàn)哈哈哈。

爬中流程與搜索引擎工作流程

爬蟲(chóng)一般工作流程:確定某個(gè)URL——發(fā)送請(qǐng)求——響應(yīng)內(nèi)容——提取數(shù)據(jù)——保存數(shù)據(jù)。

搜索引擎蜘蛛工作流程:爬取網(wǎng)頁(yè)——存儲(chǔ)數(shù)據(jù)——數(shù)據(jù)預(yù)處理——提供用戶搜索網(wǎng)頁(yè)排名。

是不是感覺(jué)難理解?發(fā)送請(qǐng)求是什么,響應(yīng)內(nèi)容又是什么?這個(gè)往下看HTTP協(xié)議與狀態(tài)看完你就懂了。

關(guān)于搜索引擎數(shù)據(jù)預(yù)處理在處理什么,怎么理解?看公眾號(hào)白楊SEO兩年前寫過(guò)這篇《白楊SEO:大白話告訴你理解搜索引擎工作原理的意義和運(yùn)用》,看完你就懂了。

http/https協(xié)議與狀態(tài)碼

HTTP協(xié)議是指Hyper Text Transfer Protocol(超文本傳輸協(xié)議)的縮寫,是用于從萬(wàn)維網(wǎng) WWW(World Wide Web縮寫)服務(wù)器傳輸超文本到本地瀏覽器的傳送協(xié)議。默認(rèn)端口號(hào):80。

而HTTPS (Secure Hypertext Transfer Protocol)安全超文本傳輸協(xié)議指的是HTTPS是在HTTP上建立SSL加密層,并對(duì)傳輸數(shù)據(jù)進(jìn)行加密,是HTTP協(xié)議的安全版。默認(rèn)端口號(hào):443。

你是不是理解不了這個(gè)HTTP到底什么東東?簡(jiǎn)單白話來(lái)說(shuō)這個(gè)就是用來(lái)傳輸和接收頁(yè)面的,保證你的電腦能快速傳輸文本文檔并且讓你看到哈。

至于HTTP的請(qǐng)求頭,響應(yīng)頭,都是各種代碼,白楊SEO就不在這里寫了,如果你要真的想了解,自己去搜索,這里只講一下我們SEO中會(huì)看到的HTTP請(qǐng)求響應(yīng)狀態(tài)碼,一般狀態(tài)碼如下:

圖片

上面只要是2或者3開(kāi)頭都是好的,比如查白楊SEO博客的:

圖片

圖片

輸入http://www.baiyangseo.com返回是301,而輸入https://www.baiyangseo.com 返回的是200正常的你知道為什么嗎?

其實(shí),這在SEO里來(lái)說(shuō),是因?yàn)閮蓚€(gè)不同URL內(nèi)容是一模一樣,為了讓搜索引擎避免認(rèn)為作弊,所以做了301永久重定向。簡(jiǎn)單理解,你用不帶s的HTTP那個(gè)域名打開(kāi)就是這個(gè)帶的了哈。

關(guān)于這個(gè)狀態(tài)碼,如果你想學(xué)習(xí)了解更深入一點(diǎn),同樣可以白楊SEO公眾號(hào)上這篇:《白楊SEO:SEO入門學(xué)習(xí)之搜索引擎蜘蛛與網(wǎng)站HTTP狀態(tài)碼》

robots協(xié)議

最后,來(lái)到針對(duì)搜索引擎網(wǎng)頁(yè)蜘蛛robots協(xié)議了。這個(gè)如果你是學(xué)SEO的,肯定要學(xué)的。

robots協(xié)議是什么?簡(jiǎn)單理解就是網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎,網(wǎng)站上哪些頁(yè)面可以抓取,那些頁(yè)面不能抓??!但是,它僅僅是互聯(lián)網(wǎng)中的一種約定而已。所以有些人說(shuō)我明明禁止XXX蜘蛛還是被抓取了哈哈哈。

它長(zhǎng)啥樣?到底有什么用?

圖片

長(zhǎng)啥樣,如上圖,作用就是上面說(shuō)的,在SEO里就是告訴蜘蛛來(lái)爬我這里,一般每個(gè)站都會(huì)做這個(gè),因?yàn)橹┲胧紫纫廊∫粋€(gè)頁(yè)面這個(gè)地方是最先爬取的,也會(huì)反復(fù)爬取。

不要問(wèn)我為啥要給蜘蛛爬取,你做一個(gè)網(wǎng)站目的是啥,不就是要讓蜘蛛爬取然后用戶搜索的時(shí)候看到你帶來(lái)流量嗎?當(dāng)然,你說(shuō)我做網(wǎng)站只是用來(lái)存儲(chǔ)我自己看除外哈哈哈。

作者簡(jiǎn)介:

白楊SEO,專注SEO研究十年,SEO、流量實(shí)戰(zhàn)派,對(duì)互聯(lián)網(wǎng)精準(zhǔn)流量有深入研究。個(gè)人微信:baiyang2047

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
百度爬蟲(chóng)

相關(guān)文章

熱門排行

信息推薦