當(dāng)前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

了解robots文件,主動告訴搜索引擎該抓取什么內(nèi)容

 2015-08-06 15:35  來源: 用戶投稿   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

導(dǎo)讀:首先我們要了解什么是robots文件,比如,在安徽人才庫的首頁網(wǎng)址后面加入“/robots.txt”,即可打開該網(wǎng)站的robots文件,如圖所示,文件里顯示的內(nèi)容是要告訴搜索引擎哪些網(wǎng)頁希望被抓取,哪些不希望被抓取。因?yàn)榫W(wǎng)站中有一些無關(guān)緊要的網(wǎng)頁,如“給我留言”或“聯(lián)系方式”等網(wǎng)頁,他們并不參與SEO排名,只是為了給用戶看,此時可以利用robots文件把他們屏蔽,即告訴搜索引擎不要抓取該頁面。

蜘蛛抓取網(wǎng)頁的精力是有限的,即它每次來抓取網(wǎng)站,不會把網(wǎng)站所有文章、所有頁面一次性全部抓取,尤其是當(dāng)網(wǎng)站的內(nèi)容越來越多時,它每次只能抓取一部分。那么怎樣讓他在有限的時間和精力下每次抓取更多希望被抓去的內(nèi)容,從而提高效率呢?

這個時候我們就應(yīng)該利用robots文件。小型網(wǎng)站沒有該文件無所謂,但對于中大型網(wǎng)站來說,robots文件尤為重要,因?yàn)檫@些網(wǎng)站數(shù)據(jù)庫非常龐大,蜘蛛來時,要像對待好朋友一樣給它看最重要的東西,因?yàn)檫@個朋友精力有限,每次來都不能把所有的東西看一遍,所以就需要robots文件屏蔽一些無關(guān)緊要的東西。由于種種原因,某些文件不想被搜索引擎抓取,如處于隱私保護(hù)的內(nèi)容,也可以用robots文件把搜索引擎屏蔽。

當(dāng)然,有些人會問,如果robots文件沒用好或出錯了,會影響整個網(wǎng)站的收錄,那為什么還有這個文件呢?這句話中的“出錯了”是指將不該屏蔽的網(wǎng)址屏蔽了,導(dǎo)致蜘蛛不能抓取這些頁面,這樣搜索引擎就不會收錄他們,那何談排名呢?所以robots問價的格式一定要正確。下面我們一起來了解robots文件的用法:

1.“user-agent:*disallow:/”表示“禁止所有搜索引擎訪問網(wǎng)站的任何部分”,這相當(dāng)于該網(wǎng)站在搜索引擎里沒有記錄,也就談不上排名。

2.“user-agent:*disallow:”表示“允許所有的robots訪問”,即允許蜘蛛任意抓取并收錄該網(wǎng)站。這里需要注意,前兩條語法之間只相差一個“/”。

3.“user-agent:badbot disallow:/”表示“禁止某個搜索引擎的訪問”。

4.“user-agent:baiduspider disallow:user-agent:*disallow:/”表示“允許某個搜索引擎的訪問”。這里面的“baiduspider”是百度蜘蛛的名稱,這條語法即是允許百度抓取該網(wǎng)站,而不允許其他搜索引擎抓取。

說了這么多,我們來舉個例子,某個網(wǎng)站以前是做人才招聘的,現(xiàn)在要做汽車行業(yè)的,所以網(wǎng)站的內(nèi)容要全部更換。刪除有關(guān)職場資訊的文章,這樣就會出現(xiàn)大量404頁面、很多死鏈接,而這些鏈接以前已經(jīng)被百度收錄,但網(wǎng)站更換后蜘蛛再過來發(fā)現(xiàn)這些頁面都不存在了,這就會留下很不好的印象。此時可以利用robots文件把死鏈接全部屏蔽,不讓百度訪問這些已不存在的頁面即可。

最后我們來看看使用robots文件應(yīng)該注意什么?首先,在不確定文件格式怎么寫之前,可以先新建一個文本文檔,注意robots文件名必須是robots.txt,其后綴是txt并且是小寫的,不可以隨便更改,否則搜索引擎識別不了。然后打開該文件,可以直接復(fù)制粘貼別人的格式,

Robots文件格式是一條命令一行,下一條命令必須換行。還有,“disallow: ”后面必須有一個空格,這是規(guī)范寫法。

文章有萬馬奔騰原創(chuàng),轉(zhuǎn)載請注明。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦