GEO/SEO 網站優化 SEO進階知識

Robots.txt用途與使用範例教學，釐清SEO收錄觀念！

Q: 網站上線，只能全站被收錄嗎？

若是希望有部分頁面拒絕被索引，亦或者若我的網站有些東西不想被搜尋到或"暫時"不想被搜尋到，可以使用下述方式： 是網頁內作法，使用所謂的meta標籤阻擋，但壞處是必須每一個網頁都需獨立設置使用。 而第二種方式，則是可以針對整個網站做規範的限制，這就是本次要講的主題：Robots.txt。

Fenix Li

2018-03-29

(更新日期: 2023-09-06)

網站上線，只能全站被收錄嗎？

無論是自己架站，亦或是協助客戶網站問題排除時，是不是總會遇過『為什麼我的網站上線這麼久，卻都沒有好的排名？』這類相關疑惑呢？但在所謂『好的排名』這前提大方向，你是否該先注意『我的網站有沒有被搜尋引擎收錄了』這件事呢？如果你的網站在Google或Bing上連收錄都沒有，『排名』這件事就變成是空想了，不是嗎？
那麼你是否曾經想過，Google或Bing等搜尋引擎，很盡責的將線上運作的網站抓到搜尋引擎清單內做索引，並提供給使用者尋找各種資訊時，什麼情況下會被拒絕索引，亦或者若我的網站有些東西不想被搜尋到或”暫時”不想被搜尋到，那有沒有什麼辦法可以阻止搜尋引擎呢？
是的，方法是有的，就讓我們awoo團隊替你娓娓道來！

是網頁內作法，使用所謂的meta標籤阻擋，但壞處是必須每一個網頁都需獨立設置使用。
而第二種方式，則是可以針對整個網站做規範的限制，這就是本次要講的主題：Robots.txt。

搜尋引擎到底對網站做了哪些事？

搜尋引擎的運作原理是什麼呢？
簡單來說，搜尋引擎會先針對網站做Crawl（檢索）與Index（索引），然後將網站資訊收錄，根據各家演算法計算後做出排序，提供搜尋結果給使用者查詢。（當然其中還有很複雜的各種計分方式，但這邊就不細談了）
Robots.txt就是這時派上用場，主要行為就是在搜尋引擎檢索網站時，告訴它網站哪些內容可以被檢索，哪些內容可以不用被檢索。
不過這邊有一點很重要需說明，雖然 Google 不會對 Robots.txt 所封鎖的內容進行檢索或建立索引，但若我們透過網路上其他網頁的連結發現封鎖的網址，仍然會建立這些網址的索引。因此，網頁網址以及其他可能的公開資訊 (例如網頁連結中的錨點文字) 仍然會出現在 Google 搜尋結果中。如要完全避免這種情形，建議您使用密碼保護伺服器上的檔案，或是使用 noindex 中繼標記或回應標頭 (或完全移除網頁)。
更多禁止網頁被收錄的方法亦可參考我們awoo先前的文章：使用noindex”等4種方式禁止特定網頁被收錄，提升網站整體seo品質

若想近一步了解檢索與索引，可參考Google提供的檢索與建立索引

為何有網頁不想被收錄的可能？

可能有人好奇，什麼時候或有上述狀況發生呢？網站都完成了，就是希望他可以被蒐錄跟上線不是嗎？
這狀況比較可能出現的情境與受眾比較常見的可能有這些

尚未完成的網站但需上線實測的網站：有些網站可能上線是為了協作測試，亦或者用工具做壓力測試，但測試階段又不想被搜尋引擎檢索內容，這時就可以用到Robots.txt做排除了。（但在這建議搭配noindex使用，效果最佳）
網站管理者後台：有許多CMS（內容管理系統，如：Wordpress）與自行架設的網站會提供管理者後台登入的入口，這些通常是為了網站維護與管理而設置的入口，沒有被檢索的必要。
特定資料夾內檔案：網站希望搜尋引擎檢索的，往往是有內容的資訊，許多後台使用的檔案，就會以資料夾形式或正規字元方式（正規字元使用方式可見此篇後續的進階使用說明）做排除檢索的動作。

Robots.txt 怎麼做？

只要有文字編輯器，都可以完成，比較需要注意的是必須使用UTF-8 編碼的純文字檔才可以，如果使用的字元編碼會造成使用到非 UTF-8 的子集的字元，這種情況可能會導致檔案內容的剖析不正確。詳細說明規範可參考Google的Robots.txt 規範中的檔案格式說明。
比較推薦的第三方編輯器也可以參考：

Robots.txt 怎麼用？

基本會用的幾個參數分別如下：

User-agent => 定義下述規則對哪些搜尋引擎生效，即是對象。
Disallow => 指定哪些目錄或檔案類型不想被檢索，需指名路徑，否則將會被忽略。
Allow => 指定哪些目錄或檔案類型可能被檢索，需指名路徑，否則將會被忽略。
Sitemap => 指定網站內的sitemap檔案放置位置，需使用絕對路徑。

延伸閱讀：sitemap.xml網站地圖是什麼？從工具/產生器/程式製作到進行提交教學

使用範例參考

就算知道參數，但往往看著參數但卻無從下手的狀況也很頻繁，所以從範例下手，是最容易理解且好入門的方法。
以下是幾種常見及可能使用到的方式：

基本應用

允許所有搜尋引擎檢索所有內容(通常建議使用)
User-agent: *
Disallow:
拒絕所有搜尋引擎檢索所有內容(正式環境請避免使用)
User-agent: *
Disallow: /
拒絕所有搜尋引擎檢索/members/底下所有內容。
User-agent: *
Disallow: /members/
拒絕Google搜圖的爬蟲檢索/images/底下所有內容。
User-agent: Googlebot-image
Disallow:/images/

進階應用

[萬用字元]拒絕所有搜尋引擎檢索網站內png為副檔名的圖檔。
User-agent: *
Disallow: *.png$
[萬用字元]拒絕Bing搜尋引擎檢索網站內/wp-admin目錄底下所有內容及網站內開頭為test的所有檔名。
User-agent: bingbot
Disallow: /wp-admin/
Disallow: ^test*

Robots.txt測試方式

如果要驗證自己的網站有無Robots.txt，最簡單的方式是直接在網站根目錄下輸入robotx.txt做測試，檢驗是否存在。
例：https://www.apple.com/robots.txt
而若不知道目前robots.txt語法是否正確，也可以借助Google Search Console工具來做測試。

在Search Console內，左側的『檢索』內，點選『robots.txt 測試工具』，可在裡頭測試當前robots.txt檔案是否有問題，也可直接查看即時robots.txt的檔案內容。
若是還是擔心自己的某些網址會被robots.txt設置封鎖，也可用工具下方的提交網址方式做測試。

同樣的也可以在Bing Webmaster內，測試是否有被robots.txt檔案阻擋的檔案項目。

Robots.txt小細節

Robots.txt的規範中也有著各種細節跟設置，雖然非組成的必要元素，但若懂得如何應用，對設置Robots.txt相信會更有心得：）

Sitemap在Robots.txt內是屬於non-group 紀錄，即是位置並沒有限制，並不會因為User-agent或Disallow所影響，可放置於任何位置。

User-agent: bingbot
Disallow: /wp-admin/
Disallow: ^test*
Sitemap: http://www.abc.com/sitemap.xml

Crawl-delay參數可指定搜尋引擎爬蟲來訪的間隔時間（單位為秒），下述例子即表示：告訴爬蟲，再次來訪的最短時間間隔為20秒。

User-agent: *
Crawl-deslay: 20
注意：百度公開表示不支援此語法

目前大型的搜尋引擎，如：Google、Ask、Bing、Yahoo 均支援 Robotx.txt內的Sitemap指向。

4.Robots.txt的檔案命名方式必須為小寫字母（robots.txt），若命名為Robots.txt或robots.TXT等皆為不正確的命名方式，將會被搜索引擎的爬蟲忽略。

Robot.txt檔案只能放在網站的根目錄底下，若非根目錄則不會被發現。

詳細資訊也可以在Google的Robots.txt 規範確認其他使用方式與項目類別。

結論，所以Robots.txt到底重不重要？

Robots.txt，他真的很重要嗎？我想，答案不是絕對的，但肯定的是『如果設置錯了，影響層面是非常深的』。在一般正常網站運作下，沒有額外設置Robots.txt檔，頂多影響會是『不太好』；但若有不少測試頁面或尚未完成版面，忘了設置使用Robots.txt做排除內，那影響不意外的肯定『比較大』；而繞回最一開始討論的內容，若你的網站準備好了也上線了，你的目標是希望有好的排名時，這時若錯誤使用Robots.txt阻擋搜尋引擎來做索引，那就絕對是『非常不好』。
在這個SEO一直反覆強調內容為王的時代，資訊架構的影響真的可大可小，但不可否認的是，若架構的初期的第一步就走錯了，那影響絕對是很深遠的。

如有任何自然流量增加的問題，或想瞭解關於 SEO 人工智慧解決方案，歡迎立即諮詢，將有 awoo 專業顧問為您服務。