Sitemap 是什麼?讓 Google 爬蟲快速了解你的網站!

Sitemap

Sitemap 是什麼?

簡單來說,Sitemap 就像是”網站地圖”的概念,在這份檔案裡面會記錄網站裡面所有的網址,提供給爬蟲爬取。

Sitemap 是一個在前台就可以被大家看到的頁面,基本上只在各網站上,網域的後面加上 /sitemap.xml,例如連結https://www.apple.com/sitemap.xml 就可以看到網站的 Sitemap。

但與 Robots.txt 不同,Sitemap 檔案不一定要放在根目錄底下,只要放在網站內的任一路徑,並且記得提交給 Google Search Console 之後就沒有問題囉。

根據 Google 官方指南,Sitemap 的格式可以選為 XML、RSS、mRSS 和 Atom 1.0 等等,但目前大多網站皆選擇 XML。如果讀者也正在思考是否要製作 Sitemap,建議可以參考後續內容,了解製作方法有哪些。

Sitemap 有哪些種類?

除了基本款紀錄網站頁面的 Sitemap 之外,事實上 Google 還可以讀取三種 Sitemap,藉此讓 Google 更容易找到相關資料。

對於圖片量很多的電商網站,圖片 Sitemap 可以起到很好的作用,它可以增加商品圖片被爬蟲爬取到的機會外,若是難以被讀取的圖片(如:利用 javascript 程式連結的圖片),也可以藉由圖片 Sitemap 的輔助,幫助 Google 找到這類圖片。

影片 Sitemap 則是針對 Google 找到網站上的影片並正確解讀影片內容,特別適合經常在網站上更新影片內容。然而影片 Sitemap 需要的必要欄位相對較多,網路上也沒有相關自動程式可以協助製作,因此建議需要有一定的程式建置能力,才可以在不出錯的情況下完成影片 Sitemap。

新聞 Sitemap 則是為了新聞型網站量身打造的 Sitemap,應用於頻繁更新最新資訊的網站。但有一點需要注意的是,根據 Google 規定,報導發布超過兩天後,請從新聞 Sitemap 中移除這些網址,或從舊網址中移除 <news:news> 中繼資料,這可能是為了讓 Google 可以快速了解,哪些頁面才是最新的資訊並加以爬取。在這種頻繁更新的狀態下,建議讀者還是避免手動更新 Sitemap,而是徵求網站建置商的協助,才可以達到最大化效益。

若讀者需要使用以上三種 Sitemap,建議到 Google 的官方說明中確認填寫格式及必要欄位,才是完成這項 SEO 優化的最快捷徑喔!

Google 如何發現網站頁面?

通常 Google 爬取網站(crawl)的方式,是藉由網站的的內部連結發現新的頁面。舉個範例,當這篇文章剛上線時, Google 可能會從 awoo 成長駭客行銷誌的內容中,發現這一篇文章的網址。相反過來,也會因為我剛剛在內文中穿插了 awoo 成長駭客行銷誌的連結,Google 藉由這個錨定連結發現到 awoo 的部落格文章集合頁面,並且在從這個頁面中向外延伸出去。

Sitemap 具有什麼功用?

從上面的資料,我們大概了解了 Google 爬取頁面的方法,這時要請各位試想看看,如果我的網站內,有一個頁面被內部連結到的數量很少,或是從首頁開始計算,可能要經過 5~6 個頁面才能發現這個網站,對於 Google 的爬蟲來說,也是一個很大的負擔吧!

因此 Sitemap 就產生了他的作用,他就像是一張地圖一樣,直接告訴 Google 你的網站內全部的頁面,一方面降低了孤兒頁面 (Orphan Page)沒被發現的機會,對於 Google 來說,在爬取作業上也變得較為方便,甚至可以改善檢索成效。

但讀者仍需要注意,並不是製作了 Sitemap,Google 就一定可以讀取到網站內的所有頁面,Sitemap 僅僅只是其中一種輔助方式,讀者仍然需要優化網站內的內部連結,減少複雜的階層並讓相關頁面可以互相連結,這樣才能對改善爬蟲的爬取狀態。

 

Sitemap 該如何產出呢?

根據網站架設的方式,會有幾種不同的方式可以選擇,以下舉出幾種常見的方式讓各位參考

1.系統/架站平台自建 Sitemap 功能

像是 WordPress、Wix 等架站系統,或是 SHOPLINE 等開店平台,在預設的系統或是額外的外掛中,會有替使用者自動建立 Sitemap 的功能。像是 wordpress 的 Yoast 外掛,除了可以設定一些 SEO 相關的資料外,也可以替網站自動建立 Sitemap。而這類外掛最方便的功能,就是系統會定期更新 Sitemap 中的資訊,這樣新增頁面後,就不需要再手動更新檔案了!

2.請建置商新增自動更新 Sitemap 功能

對於不是用架站系統,需要更多客製化網站的企業,往往會因為不熟悉 SEO 需要建置的技術,而忽略這一項功能,因此許多客製化的網站,會發現它們的 Sitemap 只會停留在最初的狀態沒有更新過。

建議讀者在架站或網站改版時,可以與建置商討論是否需要增加「自動更新Sitemap」的功能,雖然可能會增加一點費用,但免去手動操作的繁雜程序及失敗的可能性,絕對讓你值回票價。

3.手動製作 Sitemap

這邊推薦 2 種製作 Sitemap 的方法給各位參考

這是一個線上製作 Sitemap 的產生器,使用者只需要在畫面的搜尋框中輸入首頁網址,產生器就會爬取網站中所有的連結,並且生成一個 Sitemap 檔案提供使用者下載。

免費試用的狀態下該產生器只能爬取 500 個網址,比較適合小型網站,而付費的狀態下則可以爬取 1,500,000 個頁面,且可以設置每日固定更新,對於時常更新的大型網站來說是一項很便利的功能。因此讀者可以考量自己的網站大小與操作習慣,選擇合適的方案進行。

Screaming frog 是一項強大的爬蟲工具,具有豐富的參數設定,可以操縱你的爬蟲爬取指定的項目,經常被用在網站的內部連結狀態確認、HTTP 狀態碼回應狀態、甚至是操作爬蟲的 header 參數來了解網站的爬取限制。因此 Screaming frog 在進行 SEO 優化時,是一項十分具有幫助的工具。

而除了上述的功能外,Screaming frog 不只可以建立頁面的 XML Sitemap,也可以協助建立圖片 Sitemap,因此對於網站含有大量圖片的網站來說是一項福音。

 

製作完 Sitemap 記得要提交給 Google Search Console

當我們完成 Sitemap 並放在網頁上以後,還有一件程序需要執行,才可以讓 Google 更好的讀取到 Sitemap,那就是到自己的 Google Search Console 中提交網址,跟 Google 說我網站的 Sitemap 在哪裡。

方法很簡單只要依照下圖的方式一樣,點擊左方清單的「Sitemap」選項後,並在右邊的紅框內填寫 Sitemap 的網址,就可以提交給 Google 讀取。

延伸閱讀:【Google Search Console 完整教學】報表應用技巧、安裝驗證方式全收錄

Sitemap 有哪些限制

根據 Google 官方指南,一個 Sitemap 未壓縮時的檔案大小上限為 50 MB,且最多只能包含 50,000 個網址,如果超出這個上限的話則需要分隔開來。因此也就會有像 awoo Sitemap 的延伸做法,提交一分 Sitemap 索引檔,也就是指向 Sitemap 清單的檔案,直接將這個索引檔案提交給 Google,並在該份清單中再填寫其他 Sitemap,就可以解決檔案大小上限的問題。

結語

看到這邊我想各位對於 Sitemap 的建置方法及功用有了一定的了解,雖然它沒有辦法可以百分之百解決網站收錄問題,但 SEO 本身就是需要在各種小地方做優化,綜校之下才能達成大目標,相信只要用心改善網站,最後回首成效時可以發現意外驚喜。

 

如有任何自然流量增加的問題,或想瞭解關於 SEO 人工智慧解決方案,歡迎立即諮詢,將有 awoo 專業顧問為您服務。

立即聯絡阿物 

延伸閱讀:從零開始教 SEO Chrome 擴充功能篇!SEOer 推薦的 Google Chrome 插件一篇全攻略!

延伸閱讀:其他人也問了以下問題?5 個步驟幫你競爭 People Also Ask,提升網站流量