如何對網(wǎng)站的robots.txt進行設置來做seo優(yōu)化

來源：SEO369 2018-02-22 關鍵字：seo優(yōu)化設置

什么是robots.txt?這是一個文本文件，是搜索引擎爬行網(wǎng)頁要查看的第一個文件，你可以告訴搜索引擎哪些文件可以被查看，哪些禁止。當搜索機器人訪問一個站點時，它首先會檢查根目錄是否存在robots.txt，如果有就確定抓取范圍，沒有就按鏈接順序抓取。

　robots.txt有什么用？為何需要用robots.txt這個文件來告訴搜索機器人不要爬行我們的部分網(wǎng)頁，比如：后臺管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。說到底了，這些頁面或文件被搜索引擎收錄了，用戶也看不了，多數(shù)需要口令才能進入或是數(shù)據(jù)文件。既然這樣，又讓搜索機器人爬行的話，就浪費了服務器資源，增加了服務器的壓力，因此我們可以用robots.txt告訴機器人集中注意力去收錄我們的文章頁面。增強用戶體驗。

　　1、用robots屏蔽網(wǎng)站重復頁

　　很多網(wǎng)站一個內(nèi)容提供多種瀏覽版本，雖然很方便用戶卻對蜘蛛造成了困難，因為它分不清那個是主，那個是次，一旦讓它認為你在惡意重復，你就慘了

　　User-agent： *

　　Disallow： /sitemap/ 《禁止蜘蛛抓取文本網(wǎng)頁》

　　2、用robots保護網(wǎng)站安全

　　很多人納悶了，robots怎么還和網(wǎng)站安全有關系了?其實關系還很大，不少低級黑客就是通過搜索默認后臺登陸，以達到入侵網(wǎng)站的目標

　　User-agent： *

　　Disallow： /admin/ 《禁止蜘蛛抓取admin目錄下所有文件》

　　3、防止盜鏈

　　一般盜鏈也就幾個人，可是一旦被搜索引擎“盜鏈”那家伙你100M寬帶也吃不消，如果你做的不是圖片網(wǎng)站，又不想被搜索引擎“盜鏈”你的網(wǎng)站圖片

　　User-agent： *

　　Disallow： .jpg$

　　4、提交網(wǎng)站地圖

　　現(xiàn)在做優(yōu)化的都知道做網(wǎng)站地圖了，可是卻沒幾個會提交的，絕大多數(shù)人是干脆在網(wǎng)頁上加個鏈接，其實robots是支持這個功能的

　　Sitemap： http:-www-***-com/sitemaps/sitemaps.xml

　　5、禁止某二級域名的抓取

　　一些網(wǎng)站會對VIP會員提供一些特殊服務，卻又不想這個服務被搜索引擎檢索到

　　User-agent： *

　　Disallow： /

　　以上五招robots足以讓你對搜索引擎蜘蛛掌控能力提升不少，就像百度說的：我們和搜索引擎應該是朋友，增加一些溝通，才能消除一些隔膜。

seo優(yōu)化，如何對網(wǎng)站的robots.txt進行設置

　　robots.txt基本語法：

　　1、robots.txt的幾個關鍵語法：

　　a、User-agent: 應用下文規(guī)則的漫游器，比如Googlebot,Baiduspider等。

　　b、Disallow: 要攔截的網(wǎng)址,不允許機器人訪問。

　　c、Allow: 允許訪問的網(wǎng)址

　　d、”*” : 通配符—匹配0或多個任意字符。

　　e、”$” : 匹配行結束符。

　　f、”#” : 注釋—說明性的文字,不寫也可。

　　g、Googlebot: 谷歌搜索機器人(也叫搜索蜘蛛)。

　　h、Baiduspider: 百度搜索機器人(也叫搜索蜘蛛)。

　　i、目錄、網(wǎng)址的寫法:都以以正斜線 (/) 開頭。

　　如

　　Disallow:/

　　Disallow:/images/

　　Disallow:/admin/

　　Disallow:/css/

　　2、列舉一些robots.txt 具體用法：

　　(1)允許所有的robot訪問

　　User-agent: *

　　Disallow:

　　或者

　　User-agent: *

　　Allow: /

　　或者建一個空文件”robots.txt”即可。

　　(2)僅禁止某個機器人訪問您的網(wǎng)站，如Baiduspider。

　　User-agent: Baiduspider

　　Disallow: /

　　3、僅允許某個機器人訪問您的網(wǎng)站，如Baiduspider。

　　User-agent: Baiduspider

　　Disallow:

　　User-agent: *

　　Disallow: /

　　4、禁止訪問特定目錄

　　User-agent: *

　　Disallow: /admin/

　　Disallow: /css/

　　Disallow:

　　要攔截對所有包含問號 (?) 的網(wǎng)址的訪問(具體地說，這種網(wǎng)址以您的域名開頭、后接任意字符串，然后接問號，而后又接任意字符串)，請使用以下內(nèi)容：

　　User-agent: Googlebot

　　Disallow: /*?

　　要指定與某個網(wǎng)址的結尾字符相匹配，請使用 $。例如，要攔截以 .xls 結尾的所有網(wǎng)址，請使用以下內(nèi)容： User-agent: Googlebot

　　Disallow: /*.xls$

　　您可將此模式匹配與 Allow 指令配合使用。例如，如果 ? 代表一個會話 ID，那么您可能希望排除包含 ? 的所有網(wǎng)址，以確保 Googlebot 不會抓取重復網(wǎng)頁。但是以 ? 結尾的網(wǎng)址可能是您希望包含在內(nèi)的網(wǎng)頁的版本。在此情況下，您可以對您的 robots.txt 文件進行如下設置：

　　User-agent: *

　　Allow: /*?$

　　Disallow: /*?

　　Disallow: /*? 指令會阻止包含 ? 的所有網(wǎng)址(具體地說，它將攔截所有以您的域名開頭、后接任意字符串，然后接問號，而后又接任意字符串的網(wǎng)址)。

　　Allow: /*?$ 指令將允許以 ? 結尾的任何網(wǎng)址(具體地說，它將允許所有以您的域名開頭、后接任意字符串，然后接 ?，? 之后不接任何字符的網(wǎng)址)。

　　以上介紹多數(shù)都是Google的http:-www-google-com/support/we … cn&answer=40360，百度的大同小異具體可以看http:-www-baidu-com/search/robots.html

　　一般網(wǎng)站查看robots.txt文件的方法是主頁后面加robots.txt就可以，比如淘寶網(wǎng)的就是http:-www-taobao-com/robots.txt請注意，僅當您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時，才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容，請勿建立robots.txt文件。

　　網(wǎng)站Robots.txt協(xié)議，你懂多少?

網(wǎng)站Robots.txt文件，是網(wǎng)站與搜索引擎交流的通用協(xié)議，通過Robots協(xié)議的設置告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓?。阂环矫婵梢宰鼍W(wǎng)站安全的防護，更重要的是用來做優(yōu)化，減少無效頁面的收錄，提升站點的排名效果。..

但是在實際的操作中，絕大多數(shù)的網(wǎng)站，在其撰寫上都存在或多或少的欠缺，甚至由于技術性的錯誤撰寫，還會導致網(wǎng)站降權、不收錄、被K等一系列問題的出現(xiàn)。對于這一點，A5營銷，包括我，在對客戶的SEO診斷過程中，會經(jīng)常遇到，可以算是很多站點的通病。今天寫出這篇文章，就是來做一個分享：關于robots.txt協(xié)議，你寫對了嗎?

一：設置成Allow全站點抓取

百度收錄的越多，網(wǎng)站的排名越高?這是絕大多數(shù)站長的認為，事實上也是如此。但是也并非絕對成立：低質量的頁面收錄，會降低網(wǎng)站的排名效果，這一點你考慮到了嗎?

如果你的網(wǎng)站結構不是非常的清晰，以及不存在多余的“功能”頁面，不建議對網(wǎng)站開全站點的抓取，事實上，在A5的SEO診斷中，只遇到極少數(shù)的一部分網(wǎng)站，可以真正的做到全站點都允許抓取，而不做屏蔽。隨著功能的豐富，要做到允許全站點抓取，也不太可能。

二：什么樣的頁面不建議抓取

對于網(wǎng)站功能上有用的目錄，有用的頁面，在用戶體驗上可以得到更好的提升。但是搜索引擎方面來講，就會造成：服務器負擔，比如：大量的翻頁評論，對優(yōu)化上則沒有任何的價值。

除此外還包含如：網(wǎng)站做了偽靜態(tài)處理后，那么就要將動態(tài)鏈接屏蔽掉，避免搜索引擎抓取。用戶登錄目錄、注冊目錄、無用的軟件下載目錄，如果是靜態(tài)類型的站點，還要屏蔽掉動態(tài)類型的鏈接Disallow: /*?* 為什么呢?我們舉個例子來看：

上面是某客戶網(wǎng)站發(fā)現(xiàn)的問題，被百度收錄的原因是：有人惡意提交此類型的鏈接，但是網(wǎng)站本身又沒有做好防護。

三：撰寫上的細節(jié)注意事項

方法上來講，絕大多數(shù)的站長都明白，這里就不做多說了，不明白的站長，可以上百度百科看一下。今天這里說一些不常見的，可能是不少站長的疑問。

1、舉例：Disallow; /a 與Disallow: /a/的區(qū)別，很多站長都見過這樣的問題，為什么有的協(xié)議后加斜杠，有的不加斜杠呢?筆者今天要說的是：如果不加斜杠，屏蔽的是以a字母開頭的所有目錄和頁面，而后者代表的是屏蔽當前目錄的所有頁面和子目錄的抓取。

通常來講，我們往往選擇后者更多一些，因為定義范圍越大，容易造成“誤殺”。

2、JS文件、CSS需要屏蔽嗎?不少網(wǎng)站都做了這個屏蔽，但是筆者要說的是：google站長工具明確的說明：封禁css與js調(diào)用，可能會影響頁面質量的判斷，從而影響排名。而對此，我們做了一些了解，百度方面同樣會有一定影響。

3、已經(jīng)刪除的目錄屏蔽，很多站長往往刪除一些目錄后，怕出現(xiàn)404問題，而進行了屏蔽，禁止搜索引擎再抓取這樣的鏈接。事實上，這樣做真的好嗎?即使你屏蔽掉了，如果之前的目錄存在問題，那么沒有被蜘蛛從庫中剔除，同樣會影響到網(wǎng)站。

建議最佳的方式是：將對應的主要錯誤頁面整理出來，做死鏈接提交，以及自定義404頁面的處理，徹底的解決問題，而不是逃避問題。

說明：本文由SEO369團隊編輯整理，有侵犯權益的地方請聯(lián)系站長刪除，如果需要了解更過SEO方面的知識請關注SEO369。

上一篇：搜索引擎優(yōu)化seo的技巧分析
下一篇：寫文章如何運用上seo優(yōu)化的方法獲得好的效果

其他人還看了: 關鍵詞排名優(yōu)化一個很重要優(yōu)化環(huán)節(jié); 影響關鍵詞排名的因素有哪些？; 關鍵詞優(yōu)化不要使用flash; 關鍵詞優(yōu)化之新聞源QA匯總; 關鍵詞優(yōu)化的網(wǎng)站構架的搭建; 網(wǎng)站優(yōu)化的首頁代碼優(yōu)化的技巧

點擊排行: 關鍵詞排名優(yōu)化公司網(wǎng)站如何做好seo; 關鍵詞排名優(yōu)化：百度綠蘿算法分析; 整站優(yōu)化之百度收錄提升的技巧; 最近百度K站嚴重，有什么好的方法嗎; 整站優(yōu)化外部鏈接技巧6則; 論網(wǎng)站更新與seo優(yōu)化的關系

頻道總排行: 影響關鍵詞排名的因素有哪些？; 關鍵詞排名優(yōu)化：同一頁面不同快照原因分析; 網(wǎng)站關鍵詞優(yōu)化的三個基礎問題; seo優(yōu)化的關鍵詞指的是什么呢; 關鍵詞優(yōu)化的絕對路徑和相對路徑詳細分析; 如何對網(wǎng)站的robots.txt進行設置來做seo優(yōu)化; 做關鍵詞排名優(yōu)化最后的預估時間的長短分析; 網(wǎng)站關鍵字優(yōu)化攻略; 關鍵詞優(yōu)化中優(yōu)質與非優(yōu)質新聞源內(nèi)容的區(qū)別; 網(wǎng)站優(yōu)化的首頁代碼優(yōu)化的技巧

您可能還想了解: 說說湖南seo的內(nèi)容頁的內(nèi)鏈設置; 湖北seo過程中如何認識網(wǎng)站圖片收錄與展現(xiàn)的關系; 四川網(wǎng)站優(yōu)化內(nèi)容建設策略有哪些？; 貴州seo關鍵詞怎么布局才更合理？; 云南seo優(yōu)化站內(nèi)的幾點技巧; 湖北seo：也許自學seo并不是好的選擇; 江蘇SEO優(yōu)化常見問題解答; 做貴州seo的時候如何防止網(wǎng)站被黑？; 云南網(wǎng)站優(yōu)化的排名如何可以穩(wěn)定呢; 陜西網(wǎng)站制作學習的基礎知識

欄目導航: SEO基礎; SEO優(yōu)化; SEO技術; SEO教程; 快速排名; 關鍵詞優(yōu)化; 整站優(yōu)化; 百度SEO; 網(wǎng)站建設; 網(wǎng)站優(yōu)化