當(dāng)前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

探秘搜索引擎蜘蛛的抓取 規(guī)律外鏈?zhǔn)欠裼袝r(shí)效性

 2020-10-26 11:58  來源: SEO實(shí)戰(zhàn)營   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競價(jià),好“米”不錯(cuò)過

做SEO優(yōu)化的我們都曉得搜索引擎錄入頁面是靠蜘蛛抓取來錄入的,所以了解搜索引擎的改動(dòng)是必需的。搜索引擎蜘蛛是大家編寫出來的機(jī)器,一定存在著某種規(guī)則。

一、搜索引擎蜘蛛的抓取規(guī)律

1、優(yōu)質(zhì)網(wǎng)站專門分配蜘蛛抓取,及時(shí)抓取,及時(shí)收錄,及時(shí)放出供網(wǎng)民搜索;

2、普通網(wǎng)站,分配一定的蜘蛛抓取資源,爬到一定量就不抓取了;

根據(jù)以上兩種抓取原則,在配合兩種抓取方法:橫向抓取,縱向抓取;

網(wǎng)頁抓取規(guī)則:遵循F型抓取規(guī)則,從左到右,從商到下的原則抓取。

一般情況下,一個(gè)新上線的網(wǎng)站需要一段時(shí)間才會被錄入。當(dāng)搜索引擎錄入網(wǎng)站時(shí),一般是從主頁收錄,接著順著主頁再進(jìn)入內(nèi)頁。搜索引擎很“花心”,它不是一次性將網(wǎng)站悉數(shù)抓取完,而是分不一樣的時(shí)間段進(jìn)行抓取,然后核算出蜘蛛在網(wǎng)站的活動(dòng)時(shí)間及時(shí)間的長短。

新站的頁面即便被抓取也不會馬上被放出來,需要經(jīng)過搜索引擎重復(fù)核算,供認(rèn)網(wǎng)站的確有必要錄入,這時(shí)才會把頁面放出來,一般新站的網(wǎng)站快照和錄入頁面都是晚一個(gè)星期才會被放出來。

一定要緊記下面這段話:在搜索引擎蜘蛛抓取網(wǎng)站的時(shí)分,千萬不能出現(xiàn)網(wǎng)站打不開或許有死鏈的情況,假設(shè)出現(xiàn)這種情況,搜索引擎會連續(xù)對網(wǎng)站的抓取,往后什么時(shí)分再來就不一定了。有很多人有一個(gè)不好的習(xí)慣,也有一個(gè)不錯(cuò)的猜想,認(rèn)為域名的年紀(jì)越長,越遭到搜索引擎的親賴。

有好多人,網(wǎng)站剛剛做完主頁,馬上上線,主頁上的銜接大多數(shù)都是死鏈,搜索引擎蜘蛛進(jìn)入后,抓取網(wǎng)站內(nèi)頁時(shí)進(jìn)不去,對網(wǎng)站形象大幅度降低,然后減少來抓取網(wǎng)站的次數(shù)。假設(shè)下次來光臨的時(shí)候, 網(wǎng)站仍是原樣,這樣往復(fù)幾回,搜索引擎蜘蛛就會不友好,覺得是低質(zhì)網(wǎng)站,畢竟拋棄抓取該網(wǎng)站。

網(wǎng)站成功上線一段時(shí)間后,才會進(jìn)入安穩(wěn)時(shí)期。baidu和Google會給新站一段時(shí)間的查核期,查核期過后,才認(rèn)為網(wǎng)站是一個(gè)長時(shí)間的網(wǎng)站,這個(gè)時(shí)間為3-6個(gè)月。處在安穩(wěn)期的網(wǎng)站,搜索引擎蜘蛛會常常來光臨,它們?nèi)允呛颓捌跁r(shí)期一樣,從主頁進(jìn)入網(wǎng)站抓取。

baidu和Google略有不一樣,假設(shè)baidu發(fā)現(xiàn)網(wǎng)站主頁的內(nèi)容沒有改動(dòng),會馬上中止抓?。欢鳪oogle不是這樣,即使發(fā)現(xiàn)網(wǎng)站主頁沒有改動(dòng),仍是照常順著主頁的銜接繼續(xù)抓取,這便是有些網(wǎng)站Google比baidu錄入頁面多的原因之一。

當(dāng)更新網(wǎng)站的內(nèi)容時(shí),一定要在網(wǎng)站主頁中顯示出來,否則百度蜘蛛不會錄入更新的頁面,因?yàn)橹黜摏]有改動(dòng),百度蜘蛛不往內(nèi)頁抓取,所以不曉得有新的頁面發(fā)作。這也是有的公司網(wǎng)站常常犯的錯(cuò)誤之一,主頁的內(nèi)容是死的,不能改動(dòng),致使網(wǎng)站的錄入量一貫沒有改動(dòng)。安穩(wěn)時(shí)期的網(wǎng)站快照和錄入頁面一般是近兩天內(nèi)被放出來。。搜索引擎也是一樣,它對網(wǎng)站形象好,會常常來,常常更新網(wǎng)站的快照,常常錄入頁面;假設(shè)對網(wǎng)站形象欠好,所以要先養(yǎng)站,只需網(wǎng)站略微有“打擦邊球”的嫌疑,被封掉的可能性就會很大。

二、外鏈?zhǔn)欠裼袝r(shí)效性

早幾年在博客中國的博客(可能是因?yàn)榱髁砍瑯?biāo)在2016年被刪除了)早就已經(jīng)被刪了,但是百度依然有快照。今天看了下首頁的快照已經(jīng)沒有了,但是文章頁面還存在??纯煺杖掌诳梢钥吹绞?016年,甚至更久的。

也就是雖然頁面被刪除了有5年之久,但是百度的快照沒有刪除,那么你說這里面的鏈接蜘蛛會不會爬呢?我感覺應(yīng)該是會爬的,而且我在博客網(wǎng)的這個(gè)博客是有一個(gè)域名A的鏈接的,當(dāng)時(shí)只是做了個(gè)跳轉(zhuǎn)到博客首頁。后來在我啟用域名A做博客的時(shí)候,立馬就獲得了一個(gè)很好的權(quán)重,而且文章很容易被秒收。相信這個(gè)5年前的鏈接起到了不少的作用。

如果外鏈所在頁面搜索引擎沒有了快照,外鏈?zhǔn)欠裼行?答案可能會出乎很多人的意料,外鏈所在頁面沒有了快照依然還可以有效。原因可以查看我在蜘蛛如何抓取鏈接這篇文章里寫的,蜘蛛抓取頁面之后,會把內(nèi)容和鏈接分開,鏈接也就是URL會加入一個(gè)網(wǎng)址索引庫,而蜘蛛抓取是從這個(gè)網(wǎng)址索引庫出發(fā)的。

先看證據(jù),這個(gè)證據(jù)來自于谷歌站長工具:這個(gè)截屏來自于Google站長工具故障診斷的404報(bào)告,以前我在原網(wǎng)站下面架設(shè)了個(gè)bbs,當(dāng)然早在N年前已經(jīng)刪除了??墒沁@個(gè)不存在的頁面,被Google蜘蛛抓取的來源地址竟然也是不存在的頁面。而用Google搜索,是沒有這些頁面的快照的。那是不是意味著已經(jīng)404了很久的頁面上的導(dǎo)出鏈接依然有效?

三、那么外鏈對于搜索引擎是否有時(shí)效性呢?

很明顯應(yīng)該是有時(shí)效性的。那么我就猜測一下外鏈?zhǔn)У脑虬?,?yīng)該會有兩個(gè)原因:那就是外鏈所在頁面被刪或者鏈接被刪。

1.針對頁面被刪的情況,搜索引擎應(yīng)該會繼續(xù)抓取這個(gè)頁面上的外鏈,直到這個(gè)頁面404一定時(shí)間后,會給搜索引擎網(wǎng)址索引庫一個(gè)命令刪除這個(gè)外鏈。

2.而對于頁面更改的情況,搜索引擎應(yīng)該也會抓取這個(gè)外鏈,直到這個(gè)含有這個(gè)外鏈快照在搜索引擎內(nèi)部徹底刪除,會給網(wǎng)址索引庫一個(gè)命令刪除這個(gè)外鏈。因?yàn)楹型怄湹捻撁娓鶕?jù)情況會保存N個(gè)時(shí)期的快照,這就是為什么有時(shí)候搜不同的詞,網(wǎng)頁快照不同。

文章轉(zhuǎn)自公眾號:SEO實(shí)戰(zhàn)營(ID:ilottecn),原文地址:https://mp.weixin.qq.com/s/R-6f0iZF6IJb9l9g7Vtkiw

申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
搜索引擎蜘蛛
蜘蛛抓取

相關(guān)文章

  • 什么是搜索引擎蜘蛛?SEO搜索引擎蜘蛛工作原理

    作為一名編輯乃至站長,在關(guān)注網(wǎng)站在搜索引擎排名的時(shí)候,最重要的就是蜘蛛(spider)。搜索引擎蜘蛛是一個(gè)自動(dòng)抓取互聯(lián)網(wǎng)上網(wǎng)頁內(nèi)容的程序,每個(gè)搜索引擎都有自己的蜘蛛,那么,蜘蛛是怎樣在網(wǎng)站上抓取內(nèi)容的呢?一起來看看它的工作原理吧

    標(biāo)簽:
    搜索引擎蜘蛛
  • 什么是搜索引擎蜘蛛?SEO搜索引擎蜘蛛工作原理

    作為一名編輯乃至站長,在關(guān)注網(wǎng)站在搜索引擎排名的時(shí)候,最重要的就是蜘蛛(spider)。搜索引擎蜘蛛是一個(gè)自動(dòng)抓取互聯(lián)網(wǎng)上網(wǎng)頁內(nèi)容的程序,每個(gè)搜索引擎都有自己的蜘蛛,那么,蜘蛛是怎樣在網(wǎng)站上抓取內(nèi)容的呢?一起來看看它的工作原理吧

    標(biāo)簽:
    搜索引擎蜘蛛
  • 七類蜘蛛陷坑 網(wǎng)站優(yōu)化中必須要躲避

    不少的網(wǎng)站就是沒有優(yōu)化好這一方面造成了站內(nèi)存在很多蛛蛛陷坑,到最終壓根兒一個(gè)好好的網(wǎng)站被搜索引擎網(wǎng)站屢屢錯(cuò)判,要不是不給名次,甚至于是造成了數(shù)量多頁面都搜索引擎網(wǎng)站拋棄。下面小編就為大家介紹網(wǎng)站優(yōu)化中必須要躲避的七類蛛蛛陷坑

    標(biāo)簽:
    搜索引擎
    搜索引擎蜘蛛
  • 網(wǎng)站怎么做seo才能吸引蜘蛛收錄更多的頁面?

    網(wǎng)站怎么做seo才能吸引蜘蛛收錄更多的頁面?蜘蛛爬行的次數(shù)越多,網(wǎng)頁收錄的名次越高,該怎么做才能吸引蜘蛛收錄更多的頁面呢?下面我們就來看看詳細(xì)的教程,需要的朋友可以參考下

    標(biāo)簽:
    搜索引擎蜘蛛
  • SEO優(yōu)化:淺談如何避免蜘蛛陷阱

    在SEO優(yōu)化的過程中如何避免蜘蛛陷阱是非常重要的一件事情,本文主要為大家淺談幾招可以避免蜘蛛陷阱的方法,有興趣的朋友們就來了解下吧

熱門排行

信息推薦