首頁 » 新·SEO » 技術 » 【網站經營者須知】robots.txt 4大用途與實務應用

【網站經營者須知】robots.txt 4大用途與實務應用

robots.txt 4大用途與實務應用

robots.txt 作為網站管理員的守門人,它有什麼用途?它對於SEO 又會有什麼幫助?本文將為你一一說明。

建議先閱讀搜尋引擎運作原理,才能更了解robots.txt 在SEO 扮演的角色定位喔!

什麼是robots.txt?對爬蟲和訪客有什麼影響?

robots.txt 是一個用文字編輯軟體就能開啟的純文字檔案,被規範放在根目錄,根據Google 官方說明,這個檔案能夠告訴搜尋引擎的檢索器,可存取網站上的哪些網址。

robots.txt 被規範放在根目錄

簡單來說,就是網站經營者寫給爬蟲的協議信,內容主要告訴爬蟲有哪些不希望被抓取的特定網頁。

當你對某個網頁下了禁止爬蟲抓取的指令以後,訪客點擊網頁的網址還是能正常打開網頁,所以對訪客沒有任何影響。

另一點,這項協議「只防君子不防小人」,因此只有遵守這項協議的爬蟲像是Google 的googlebot 才不會抓取你的網頁。

robots.txt 必知的4大網站經營用途

既然無法確實防止爬蟲存取我們的網頁,為什麼還需要建立robots.txt?對於做SEO 的網站經營者來說,robots.txt 有以下用途:

  • 控制網站希望被搜尋引擎檢索的內容:

如同上述所說,我們可以透過這個檔案控制設定disallow (不允許),不讓搜尋引擎檢索某些特定網頁

  • 節省檢索預算

搜尋引擎多久來抓我們、每次來抓多少網頁回去,都有一定的額度。如若能阻擋不太重要的頁面,就能加速我們重要頁面被檢索的效率

  • 避免重複性內容

除了優先讓應被放行的網頁被抓取,我們還能阻擋重複性內容。重複性內容有很多處理方式,robots.txt 是其中一個能實現的手段。

  • 提交XML Sitemap

最後,我們可以在這個檔案放入我們XML Sitemap的路徑,告訴搜尋引擎我們的Sitemap 在哪裡(延伸閱讀:Sitemap 提交教學指南

實務上建議採用robots.txt 阻擋爬蟲的頁面

基本上我們阻擋頁面的原因都延伸自上面的用途,在實務上,我們建議不讓被Google 爬蟲抓取的頁面類型如下:

搜尋結果頁:網站的站內搜尋結果頁會造成重複性內容(延伸閱讀:黑帽SEO 如何應用站內搜尋結果攻擊你的網站?

程式檔案:程式檔案一般對SEO 無效,建議阻擋,以免浪費檢索預算,另外有些留言檔案也會產生頁面,像是有些網站會為產品設置留言功能,不過不一定都有人留言,這便會造成重複性內容

購物結賬頁、密碼保護頁與會員頁:不需要被搜尋到的頁面

廣告到達頁:可以阻擋短期的廣告到達頁

友善列印頁:為了讓訪客能列印版型好看而額外產生的頁面,如今已經很少見

不需要被檢索,且會造成重複性內容的動態頁面:有些頁面有存在的必要,不過經過我們的判斷仍須被阻擋,比如說有些網站會產生內容極為近似,不過網址參數不同的頁面。

認識robots.txt 語法與規範

robots.txt 檔案的內容很簡單,主要包含下列語法:

robots.txt 基本語法
  • User-agent: 爬蟲的名稱;若User-agent是*(萬用字元),則表示所有爬蟲。
  • Disallow: 不允許爬蟲抓取的網址
  • Allow: 允許爬蟲抓取的網址
工具分享:你可以運用robots.txt 測試工具檢測你的robots.txt 所阻擋的頁面喔!

最後,robots.txt 仍有一些注意事項:

  • 檔案最大為500 KB
  • Google 有明確指示不要阻擋JavaScript /CSS /Images 
  • 子域名(subdomain)網站原則上是另一個網站,記得要再設置robots.txt 檔案
  • Google SEO 不需要用crawl-delay 降低檢索頻率,因為Google 已經不參考

小結

本文與你分享robots.txt 對於網站經營者的重要性,並告訴你如果將其運用在SEO 上,如果對這篇文章有任何問題,歡迎到聯絡我們與我們聯繫,也歡迎你訂閱我們的電子報,獲得我們SEO 趨勢觀察與活動消息喔!

延伸閱讀

Ahrefs教學:帶你從4大功能掌握SEO 網站分析工具應用

提升網站搜尋排名技巧大公開!了解搜尋引擎能見度4指標