檢索預算是什麼?
Google面對網路界無窮無盡的網站,窮其全力也不可能發現全部頁面。為了有效地在不同的網站間穿梭,挖掘網站的內容,提供優質的搜尋結果予使用者,故爬蟲分配在每個網站上的時間各有差異。簡單來說,爬蟲的時間有限,它們更願意花時間檢索權重高、品質好的網站!因為這些網站的內容往往能夠解決使用者的需求。
爬蟲具體落實、分配到各個網站上的時間和資源就是網站的「檢索預算(Crawl Budget)」,也可以說是一定時間範圍內搜尋引擎在網站上檢索的頁面數,實際由下列項目決定:
- 網站內容品質:由於Google的宗旨是提供高品質內容予使用者,因此內容品質優秀的網站,搜尋引擎更願意花時間和資源在其身上;
- 網站架構、動線:網站結構清晰、內部連結動線流暢,都可以讓爬蟲在檢索網站時更為順利;
- 頁面檢索、讀取是否正常:網站是否存在過多的重複內容、無效頁面、無意義的轉址,等於爬蟲會在無效的頁面上耗費被分配到的資源和時間;
- 網站速度:假若網頁速度較慢,爬蟲爬取會較為吃力、費時,影響到重要頁面的檢索進度。
具體來說,檢索預算由「檢索頻率上限(Crawl Rate Limit)」和「檢索需求(Crawl Demand)」組成:
(圖片來源:https://www.botify.com/blog/crawl-budget-optimization)
檢索頻率上限(Crawl Rate Limit)
搜尋引擎的爬蟲不會在到訪網站時就一口氣把整個網站搜爬一遍,而是會在顧及網站伺服器的負載程度下,每次只會檢索一部分頁面,分批多次進行檢索。
Google會根據網站的健康程度調整檢索頻率:
- 如網站在一段時間內檢索上較為順利,搜尋引擎會慢慢調高檢索頻率;
- 如網站存在問題,在一段時間內爬蟲在檢索上遇到較大阻力,則是會慢慢調低頻率。常見的阻力因素如:網站速度偏慢、站內存在較多失效頁面。
檢索需求(Crawl Demand)
搜尋引擎更願意分配資源在品質好的網站上,它會比較不同網站,再來決定要在哪些網站上分配較多的時間和資源。具體來說,影響的因素包括:
- 網站權重:網站的品牌力、反向連結、E-A-T等層面左右網站在搜尋引擎眼中是否為重要的網站;
- 內容品質:網站是否常常更新、內容的權威度/正確性,網站是否存在太多重複內容、Thin Content;
- 連結品質:連結是搜尋引擎判斷頁面品質的其中一環,頁面的內部、反向連結品質、數量是否理想。
為什麼中大型網站才需要關心檢索預算?
根據Google官方說明,他們從「頁面數量」和「變動頻率」指出以下的網站才需要注意檢索預算問題:
- 擁有超過 100 萬個不重複網頁,且內容變動頻率適中 (每週一次) 的大型網站;
- 擁有超過 1 萬個不重複網頁,且內容變動極為頻繁 (每天) 的中型或大型網站。
常見的大型電商、媒體型網站便屬於Google口中需要注意的網站。這些網站需要注意檢索預算的原因在於:網站架構比較複雜、內容變動頻率高、頁面串聯欠佳、管理不易,因而容易產生上述提到影響檢索預算的事項。
(對比不同規模的網站,可以看到檢索次數有明顯的出入)
一般的中小型網站,由於規模不大、頁面內容也不會頻繁變化,網站動線正常來說不會太過複雜,所以用sitemap.xml和「手動提交網址」來跟Google溝通就足夠了:
圖片來源:https://developers.google.com/search/docs/advanced/sitemaps/overview
如何使用 Google Search Console 觀察網站檢索情況?
在了解到檢索預算對中大型網站來說是很重要的項目後,我們要如何檢查網站目前在檢索是否順利呢?其實使用每位網站管理者都擁有的 Google Search Console 便可以監控網站的檢索狀況,了解到爬蟲過去一段時間搜爬網站是否順利,當中主要應用「涵蓋範圍」、「檢索統計資料」兩張報表。
?延伸閱讀:【Google Search Console 完整教學】報表應用技巧、安裝驗證方式全收錄
「涵蓋範圍」報表
「涵蓋範圍」報表的作用是讓使用者了解網站目前的檢索、索引狀況,Google會提供相應的說明資料,告訢網站管理員爬蟲在爬取網站時在哪些網址遇到了什麼問題,其中分「錯誤」、「有效但出現警告」、「有效」、「排除」四種狀況。
與本文主題「檢索預算」相關的主要是「錯誤」和「排除」,因為它們記錄到的狀況,往往與爬行狀況不佳有關;「有效」是代表Google目前在網站上的有效索引數,可將這個數字與我們預估的網站規模數值作比較,來判斷網站目前有無遭遇檢索不佳的問題。
以下主要就「錯誤」、「排除」作說明。
位置:GSC>涵蓋範圍>錯誤/排除
(以示意圖為例,可以看到這個網站「錯誤」筆數達1萬多筆,「排除」數量高達203萬,表示網站可能存在對爬蟲不友善的問題。)
以下分別列舉幾個常見影響檢索預算的項目及處理方法:
「錯誤」
1、伺服器錯誤(5xx)
原因:5xx狀態碼與伺服器錯誤有關,通常表示爬蟲無法正常存取網址、要求逾時(回應時間過長),或網站處於流量高峰期,爬蟲便會放棄「要求」。
處理方法:
- 檢視伺服器是否正常運作;
- 網站有無嚴重的速度/載入問題;
- 聯絡伺服器管理者,確認網站有無設定錯誤。
2、重新導向錯誤
原因:與轉址有關的錯誤類型。
處理方法:
- 檢查網址是否存在過長的轉址(網址A–轉址–>網址B–轉址–>網址C)
(圖片來源:https://chrisberkley.com/blog/what-are-redirect-chains-seo/)
- 檢查是否有轉址迴圈(A網址–轉址–>網址B–轉址–>網址C–轉址–>網址A);
(圖片來源:https://www.contentkingapp.com/academy/crawl-budget/)
- 轉址無效,誤定錯誤指向空白或無效網址。
3、找不到提交的網址 (404)
原因:Google在Sitemap發現到不存在的網址。
處理方法:
- 更新sitemap.xml,確認404頁面沒被包含其中;
- 檢查404頁面的來源連結是否未作更新、調整。
原因:放入sitemap.xml的網址遭到robots.txt阻擋爬取
解決方法:
- 使用robots.txt測試工具(Google、TechnicalSEO.com)檢索,確認網址是否被disallow指令阻擋
- 修改disallow規則,或是將頁面移出被封鎖的目錄,上架至其他位置。
?小訣竅
Search Console中的「已提交」都與sitemap.xml有關,在「錯誤」、「排除」看到就可以往Sitemap檔案的方向來思考解決方法!
「排除」
注意:不是所有「排除」中的項目都需要處理,部分項目很可能是故意為之的,如「遭到「noindex」標記排除」、「替代頁面 (有適當的標準標記)」、「頁面會重新導向」等,也是正常的SEO操作手段,無須特別理會。對我們來說,具體情況都需個別判斷,亦要細心地一一檢查Search Console回報的狀況。
(謹慎地從蕪雜的資料中抽絲剝繭發現真正影響SEO的元凶,是每位SEOer的必備條件和價值所在。)
1、遭到 robots.txt 封鎖
原因:Google檢索到的網址被robots.txt的指令阻擋(與「提交的網址遭到 robots.txt 封鎖」略有不同,此處非Sitemap提交的網址)
解決方法:檢視被阻擋的頁面是否為重要頁面,如是,調整相關指令寫法或將頁面移出被阻擋的目錄。
2、已檢索 – 目前尚未建立索引
原因:Google已經檢索這個頁面,但目前未納入索引,日後有機會索引。
解決方法:
- 頁面內容是否較薄弱(Thin Content):如頁面為需要索引的重要頁面,建議加強頁面內容。中大型網站(如電商網站)常見的情況為商品頁文字內容較少,此時即可考慮將圖片內容文字化;
- 加入內部連結:在相關頁面加入問題頁面的連結,策略性地用內連強化這頁,告知搜尋引擎本頁是重要內容。
3、已找到 – 目前尚未建立索引
原因:Google已經發現這個頁面,但由於檢索預算不足或流量超載,因此還未「看」頁面的內容。
解決方法:
- 內部連結不佳:站內連結存在太多404頁面、多餘/無效的轉址,或是sitemap.xml包含太多不重要的網頁,讓搜尋引擎把爬取預算浪費在述上述無意義的頁面上。
- 網站架構不佳:跟網站動線不佳、階層較深有關,讓Google在其他網址上耗費較多時間,而無法深入這些被標註「已找到」網址。
影響原因很多,具體請參考下節「提升/節省檢索預算的8個方法」
?小訣竅
從上述兩點可以看到Google並非發現到網址就一定會索引(甚至檢索)頁面,因此確保網站有足夠的檢索預算(兼顧流暢的動線、高品質內容),才能讓網站在檢索、索引上表現理想!
4、找不到 (404)
原因:這與「錯誤」的「找不到提交的網址 (404)」略有不同,此處發現到的404網址與sitemap.xml無關,來源是站內、站外網站的連結。
解決方法:
- 更新站內連結:將404頁面網址的內部連結更新為正確版本或移除;
- 使用301轉址:如頁面內容已有移轉或合併到其他頁面,可使用301轉址告知搜尋引擎頁面已搬家,也便於使用者繼續瀏覽網站。
「檢索統計資料」報表
「檢索統計資料」報表可以讓網站管理者看到Google近90天的檢索狀況,包括:「檢索要求次數」、「平均回應時長」、各式「檢索要求」等項目,從而了解到網站有無遭遇檢索問題。
位置:GSC>設定>檢索統計資料
檢索要求總次數
觀察網站近期檢索要求次數的趨勢,如發現檢索次數出現突然上升或下降趨勢,很可能代表網站存在檢索問題,建議一一檢查可能的事項來排除。
一般來說,檢索預算當然是越高越好,這代表網站動線清晰、內容品質優秀,網站受Google青睞,當網站內容有所更新時,也能更快地被檢索、收錄。但過高的檢索頻率,也可能造成伺服器的負荷,如已影響到網站運作,還是需要限制的Googlebot的檢索,例如使用robots.txt檔案阻擋。
檢索類型
以下4張報表是爬蟲在不同類型要求的檢索狀況,當中可以比較注意「依回應」、「依目的」、「依檔案類型」三類:
a.依回應:可以觀察到不同回應(狀態碼)在總檢索次數佔的百分比,200狀態碼表示頁面是有效頁面,而轉址(301、302)、找不到(404)等,或其他狀態基本都是會影響檢索的狀況,建議點擊進去觀察造成問題的頁面及其檢索時間。
b.依目的:分「重新整理」、「發現方式」兩類
- 重新整理(Refresh):指的是重新檢索過去已知的網址;
- 發現方式(Discovery):指的是Google新發現的網址,過去從未檢索過。
如果遇到一些舊頁面被檢索的的頻率較低,可以將其納入Sitemap檔案中,或是添加內部連結,提高它的發現的機會。一般來說,如果網站在大量發布新內容後,發現方式(Discovery)的佔比會上升,我們也可藉此觀察新上線頁面的檢索是否順利。
c.依檔案類型:可以觀察爬蟲是否在某些類型的檔案上耗費太多時間,例如大型圖檔,以致影響到其他檔案類型的檢索。建議在遇到檢索次數下降時,可以具體分析各類檔案的檢索時間佔比是否合理。
檢索頻率設定工具
我們可以在檢索頻率工具調整Googlebot的檢索頻率,而根據官方的說明,檢索頻率是指:
「檢索頻率」一詞表示 Googlebot 檢索您的網站時,每秒對網站發送要求的次數,例如:每秒要求 5 次。
如未作任何調整,默認由Google決定網站的檢索頻率,Google會在顧及網站伺服器的負荷量的情況下,盡可能在每次的到訪增加檢索的頁面數。
但Google也支援手動調整檢索頻率高低的功能,參看下圖可以看到調高檢索頻率後,「每秒要求數(requests per second)」和「兩次要求間秒數(seconds between requests)」都有所上升。
(對比檢索頻率降低、調高情況下,「每秒要求數」和「兩次要求秒數」的變化)(對比檢索頻率降低、調高情況下,「每秒要求數」和「兩次要求秒數」的變化)
注意事項:
- 一般來說不建議調高檢索頻率,因為有可能造成網站伺服器的超載;
- 設定的「檢索頻率」是上限值,不代表爬蟲的每次到訪都會到達指定的頻率,因此調高頻率不等於直接提升檢索預算,它還是會按實際情況調整;
- 手動調整檢索頻率對降低頻次比較有幫助,因此這個工具較適合應用在網站檢索頻率出現未預期超載時使用;
- 如想優化檢索預算還是要從根本面作優化。
提升/節省檢索預算的8個方法
✅Tips1:增加內部、反向連結
搜尋引擎的原理是爬蟲從不同的連結發現、檢索、索引網址,因此當頁面具備足夠的連結,可以讓搜尋引擎更容易地發現網站的各個頁面,提高檢索的效率。
其次,連結本身也起傳遞權重、建立相關性的作用,使用連結串聯站內相關的各個頁面,也有利於提高頁面的排名。
改善方法:
1、商品頁:
加入「別人也看過」、「同類型商品推薦」等區塊,列出相關商品,以增加商品頁面的連結次數,也能讓同類型、用途相近的產品透過連結互為串聯。
(電商網站增加內部連結例子:博客來)
2、分類頁:
在產品列表前加入次分類的連結和錨文字,讓爬蟲可以更簡單地發現下層分類頁面。
3、文章頁:
善用文章頁面的性質,例如加入「延伸閱讀」、「推薦商品」區塊和段落,讓文章頁面與同主題的文章和商品頁串聯,便於爬蟲發現頁面。
4、定期維護舊文章:
隨著網站規模變大,舊頁面容易疏於維護,被連結的次數會減少,搜尋引擎久而久之也不易發現這些頁面,因此建議定期。例如,建議在完成新文章後,使用「site:www.example.com (網域) 目標關鍵字」指令,在新文章加入同主題、具相關性舊文章頁面的連結,讓爬蟲易於發現舊頁面。
5、跨平台轉載/投稿:
投稿第三方平台,在文章穿插自己網站相關頁面的連結,並請平台註記作者出處(如網站首頁或文章原稿)。藉此讓網站的不同頁面獲得連結,讓搜尋引擎可以通過外部網站發現網址、頁面。
✅Tips2:改善網站架構
扁平的網站結構對爬蟲較為友善,換言之網站的階層數不要太深,建議可以控制在4~5層左右,讓使用者能夠在3~4次點擊內到底最底層的頁面,這樣的結構對爬蟲來說較為友善。縱向發展、階層數較多的網站,爬蟲不易到達到底層頁面,可能會讓網站在檢索上不完全,造成一部分的頁面沒有辦法被索引。
其次,扁平的網站結構也有益於權重的傳遞,主因是權重也會隨著階層的增加而削弱、減少,讓網站維持在扁平結構,則是可以讓權重的損耗降低,換言之,底層頁面分配到的權重相對較多。
舉例來說,「首頁」通常是一個網站權重最高的頁面,扁平結構的網站從首頁到最底層的商品頁或文章頁只需3~4次點擊,那這些頁面分到的權重,比例上會較需要5~6次點擊才能抵達底層的縱深結構網站來得多。
(圖片出處:https://www.authorityhacker.com/site-architecture/)
改善方法:
1、簡化網站結構:
參考同業分類的方法以及進行關鍵字研究,視情況將一些產品數量寵大的分類切分為2~3個分類,同時避免單一分類底下存在過多層的子分類、子子分類,來縮減爬蟲抵達最底層頁面的需要經過的「路程」。
2、使用「Silos(筒倉)結構」:
Silo在SEO領域指的是網站結構的一種方式。筒倉結構要從「分類」和「階層」兩個面向來說明:
a.分類:不同分類的頁面之間不要相互連結;
b.階層:同一階層的頁面之間相互連結,上下相鄰階層的頁面連結相互連結。
(圖片來源:https://ahrefs.com/blog/seo-silo-structure/)
✅Tips3:使用robots.txt
使用robots.txt檔案阻爬蟲爬取一些頁面,較常見的例如:登入頁面、購物車頁面等。根據網站性質的不同,可以使用robots.txt阻擋爬取的子目錄、頁面也有所不同,以Agoda為例:
Agoda在robots.txt檔案中針對Googlebot宣告毋須爬取各語系訂房、訂機票的搜尋頁面,避免爬蟲搜爬這些數量幾乎無窮的頁面,節省檢索預算在有意義的頁面上。
?延伸閱讀:robots.txt用途與使用範例教學,釐清SEO收錄觀念!
✅Tips4:整合重複內容
中大型網站容易存在一定量的重複內容,如未妥善處理,由於這些重複網址也會是爬蟲搜爬的對象,爬蟲耗費時間在其身上,反過來影響到標準版本網址的檢索。例如:
1、「網址版本」造成的重複內容:
a.「http」、「https」和「www」、「non-ww」版本同時存在,很可能讓頁面數暴增。
b.參網網址:參數網址藉由網址參數調用資料庫的數據,來生成頁面內容,因此很容易就會產生不同的參數網址。例如篩選器造成的重複內容:
[標準版本]www.acb.com/product/name1
[重複版本]www.acb.com/product/name1?color=red
[重複版本]www.acb.com/product/name1?color=red&size=s
而這些重複版本的實際內容與標準版本大同小異,或僅有一、二處不同,這在搜尋引擎眼中也是重複內容。
2、「商品版本」造成的重複內容:
電商常常存在同一產品因規格的不同(如顏色、設計)而存在多個頁面的情況,其中它們的內容只有些微差別。
改善方法:
a.使用301轉址:
針對網址版本造成的重複內容,可以使用301轉址將重複版本都轉址到選定的標準版本上。而301轉址根據網站伺服器的不同,會有不同的做法,以Apache伺服器為例,則可以通過在網站根目錄新增.htaccess檔案,設定相應的語法完成全站性的轉址
b.使用robots.txt:
過去我們可以在Google Search Console的「網址參數工具」來控制爬蟲面對個別參數時的檢索動作,從而排除參數網址造成的重複內容,但Google官方宣布最近即將停用這個工具。因此,如想控管爬蟲面對參數網址的檢索,可以使用allow指令指定檢索個別參數順序,或是使用disallow指令阻擋檢索個別參數順序。
?延伸閱讀:重複內容會影響SEO排名嗎?避免SEO排名分散的「重複內容」重點整理
✅Tips5:減少404頁面、多餘的轉址
避免網站存在過多的404頁面和轉址,盡可能讓爬蟲到訪網站時,發現、檢索到的網址都是有效內容。因為爬蟲每次到訪網站的時間有限,若爬蟲在到訪時將資源浪費在404頁面、轉址的網址上,相對來說分配在有效頁面的檢索時間便會減少。換言之,會影響到正常頁面被檢索、索引的時程。
改善方法:
1、避免頻繁上下架頁面:
如商品只是短暫缺貨,可以將商品狀態設為「補貨中」,加入相關同類型、性質產品的連結,毋須下架頁面;
2、維護內部連結:
需同時更新該頁在站內各處的連結,如導覽列、Footer、延伸閱讀等位置。從權重傳遞、流通的角度來說,多餘的轉址(不論301或302轉址)也會一程度上磨損、浪費掉一部分權重。
✅Tips6:定期更新Sitemap
Sitemap檔案是網站管理者跟搜尋引擎溝通的重要管道之一,我們可以通過Sitemap告知搜尋引擎網站有哪些重要頁面,來幫助爬蟲更有效地檢爬我們的網站,也能協助搜尋引擎判斷標準網址。
改善方法:
1、Sitemapl只包含重要網址:毋須將全站頁面都放入Sitemap當中,如:篩選器網址、搜尋頁面、分頁(Pagination)網址等,僅包含分類頁、商品頁、文章頁、分頁首頁等重要頁面網址即可(不同類型網站情況不同,需視實際情況調整);
2、Sitemapl只包含標準網址:中大型網站常使用Cacnonical指定標準網址的情況,不應將非標準版本的網址加入Sitemap檔案中,以免造成搜尋引擎混亂;
3、定期更新Sitemap:避免基於頁面上下架、搬家、合併造成的404頁面、301轉址存在於Sitemap,否則即使網址已不存在於站內連結上,搜尋引擎還是能發現這些網址。
一般中小型網站來說,由於網站規模有限,即使網站階層數較深,底層頁面對爬蟲而言還是易於發現、搜爬。但對於規範較大、結構較為複雜中大型網站而言,爬蟲很有可能難於發現底層的頁面,造成重要的產品頁未被檢索、索引,失去參加排名的機會,從而讓底層產品頁面喪失競爭長尾關鍵字的機會。
此時Sitemap就顯得更為重要,它可以協助爬蟲發現底層頁面,從而讓這些頁面有機會參與排名。假如Sitemap疏於更新,參雜各種非標準網址、404頁面,縱使重要頁面網址都有包含在Sitemap中,由於爬蟲浪費時間在次要網址上,還是會影響到正常頁面的收錄。
✅Tips7:提高內容品質
網站內容品質的優劣與檢索預算也有關係,搜尋引擎更願意花時間來檢索內容品質較高的網站上,因為這樣它們才能提供更優異的搜尋結果予使用者。假如爬蟲耗費時間在低品質和垃圾內容上,變相等於推遲有價值的內容被檢索的時程(甚至沒有機會)。
換句話說,若搜尋引擎常常在站內發現低品質的內容,久而久之便會降低該站的檢索預算(減少到訪次數、停留時間),對網站造成不良影響。
改善方法:
1、提供高品質內容:
搜尋引擎的宗旨就是提供優質內容予使用者,滿足其「搜尋意圖」。因此在規劃各式頁面時都建議作關鍵字研究、競業分析,了解搜尋引擎的偏好,並學習對手優異的地方來強化自己網站的內容。
2、避免Thin Content:
以電商網站為例,很多商品頁都缺乏「文字內容」,有關商品的介紹都使用「圖片內容」呈現,但搜尋引擎不是人類,它「看不到」圖片內的文字,此時頁面在它眼裡就很可能只是一頁內容匱乏的頁面,建議「圖片內容」周圍補充「文字內容」,便於搜尋引擎埋解頁面內容、主題。
3、刪除表現不佳的頁面:
中大型網站常常會有許多上架一段時間都沒有成效的頁面,較常見的例子就是部落格文章上架很久沒有帶來預期的流量、轉換。此時便可以考慮將這些頁面的內容與主題相近的頁面作合併,或是直接刪除。
✅Tips8:速度優化
提高頁面的載入速度對檢索預算有很大幫助,因為這可讓爬蟲在到訪時間不變的情況,檢索到更多的頁面,等於提高了檢索的效率。
改善方法:
1、根據Core Web Vitals作改善
Core Web Vitals(CWV)是Google在「使用者經驗」中有關速度方便的指標,當中包括LCP(顯示最大內容元素所需時間)、FID(首次輸入延遲/封鎖時間總計)、CLS(累計版面配置轉移)三大項目。建議搭配Google官方的PageSpeed Insights工具作檢視,具體觀察網站不同版型頁面在速度上的表現。
2、安裝速度優化的外掛(Plugin)
如網站是使用WordPress架站,可以安裝WP ROCKET、WP Fastest Cache等外掛,一鍵改善網站的速度。
?延伸閱讀:Google網站核心指標Core web vitals(LCP、FID、CLS)是什麼?5大SEO UX重點優化項目
總結
可以說檢索預算歸根究底就是聚焦在「提供高品質內容」、「保持網站架構扁平化」、「維持網站動線暢通」、「最小化消耗浪費」、「確保網站速度正常」這些面向上。從事中大型網站的SEO,檢索預算優化是不可忽視的項目。雖然它並非排名因素,但檢索可謂頁面競爭排名的第一步,網頁沒被檢索和索引,網站參加關鍵字競爭的頁面數便會減少,最後還是會影響網站SEO表現。
若想瞭解關於 SEO 人工智慧解決方案,歡迎立即諮詢,將有 awoo 專業顧問為您服務。