Google Search Console-網址提交與 sitemap

Google Search Console 教學 2 – 網址提交與 sitemap

在「安裝 GSC 及串接 GA」與「GOOGLE SEARCH CONSOLE 教學 1 – 認識成效報表與優化方向」兩篇文章中,我們知道網站 SEO 與 Google Search Console 有著極大重要的關係,因此,接下來我們要和大家分享,如何在 Google Search Console提交我們做好的 sitemap ,以及針對較急迫需要被 Google索引的頁面進行手動提交、如何移除我們不要的頁面網址,以提高網站在 Google 搜尋引擎中的成效。

Google 對於網站頁面的處理流程

當 Google爬蟲進入到網站的時候,通常會進行以下五個動作:找到我們網站裡的網頁->檢索(爬取)網頁->分析頁面內容->索引(收錄)到 Google資料庫->曝光在使用者的搜尋結果頁面上。以下我們就針對這5個流程,做進一步的說明:

Google 對於網站頁面的處理流程

找到

意思就是 Google的爬蟲進入到網站後,首先會看到 robots.txt及 sitemap.xml檔案,從而知道我們網站有哪些頁面,但這個時候 Google不見得會立即去爬取頁面,因此後文的提交 sitemap對於 SEO來說,是非常建議要做的一件事情。

檢索

檢索就是所謂真正的爬取頁面,因此「頁面內容」是否可以順利可以讓爬蟲爬取,就是一件相當重要的事情,最常見的,就是用js產生的頁面內容,此時可以用「disable-HTML」Chrome擴充套件檢查。
disable-HTML

例如「https://shopee.tw/ 」,開啟disable-HTML套件後,將js關閉,重整頁面後,會發現頁面很多內容都不見了。

蝦皮等多數大型網站,關閉js後,看不到內容

注意事項

如使用disable-HTML檢測網站後,使用檢查完畢之後,請記得再重新切換開啟js並重整頁面。

貼心提醒

目前針對js產生的內容,Google爬蟲一樣可以檢索,只是有可能會延遲,或是甚至不檢索,因此還是建議頁面主要文案或圖片,至少先利用 SSR(Server Side Render)技術產生,讓 Google爬蟲可以第一時間檢索,對於網站的SEO會是較好的作法。

分析

當 Google爬蟲檢索了網站的頁面之後,會進一步分析這些頁面的內容,看網站頁面內容是否對於使用者有幫助,或者實不實用;同時,也會藉由頁面內容或是各位置的連結,知道有其他頁面的存在,進而過去檢索。

Google爬蟲會藉由頁面內容或是各位置的連結,知道有其他頁面的存在,進而過去檢索

索引

索引代表「被 Google收錄」,當 Google爬蟲分析完網站的頁面內容之後,如果該頁面內容是實用且幫助的,那麼 Google就會將該頁面收錄(索引)到 Google資料庫裡,因此,使用者在 Google搜尋某關鍵字時,才有機會出現該關鍵字相關頁面;但換句話說,如果該頁面沒有被 Google索引,就完全不會有機會出現在使用者的搜尋結果頁面上。

內容創作者應瞭解的 Google 2022 年 8 月實用內容更新

貼心提醒

要觀察頁面是否被 Google收錄,可以參照「Google Search Console 教學 4 – 頁面未被索引的原因分析與解決方案(下篇)」一文。

曝光

當頁面被 Google索引之後,就會進行排名等動作,當然,我們看不到,這是 Google主觀的工作;後續當使用者在 Google搜尋時,該頁面會出現在搜尋結果上,就如「GOOGLE SEARCH CONSOLE 教學 1 – 認識成效報表與優化方向」一文提及的 Google Search Console中的「曝光」。

要有被Google索引的頁面,才有機會出現在使用者的搜尋結果上,此稱為曝光

使用 Sitemap 加速網站被索引的速度 

以上我們大概了解 Google爬蟲對於網站的進行步驟,因此為了加速 Google爬蟲的檢索速度,架設好網站之後,建議一定要提交網站的 sitemap.xml 給 Google。

補充說明

雖然我們希望 Google 能夠檢索及索引頁面越多越好,但有些頁面是需要排除的,最主要就是攸關資安問題的頁面,例如網站後台、會員相關…等;所以針對頁面的屬性,還是要有所區分作法,並不是全站的頁面都做提交。

什麼是 Sitemap

Sitemap是一個XML格式的文件,意謂一個網站的所有網頁目錄,可以讓 Google 搜尋引擎更加有效地瞭解網站的內容結構,進而提高網站的搜尋排名。 關於更多sitemap相關說明,可以參閱「Google說明文件-瞭解 Sitemap」。

Apple的sitemap

ASUS的sitemap

例如我們可以從 apple sitemap ,或是 ASUSsitemap中,看到<loc>標籤裡面就是一個頁面網址,這是一定要填寫的;而<lastmod>則為最後修改日期,則為選填。一般來說,sitemap檔案裡面,最多放這兩個標記就可以,目前Google也只看這兩個標記。

提交 sitemap的流程

1、製作 Sitemap

製作sitemap很簡單,以客製化網站來說,可以請工程師製作,或是利用sitemap線上產生器自動抓取頁面網址與製作,但這邊需要注意的是,免費線上產生器只能產出500條頁面網址,且無法自行定義要放哪些網址在裡面。

sitemap線上產生器

如果是用WordPress架設的網站,則可以使用 RankMathYoastSEO等SEO相關套件,自動產生「並且自動提交」。

RankMath產出的sitemap

YoastSEO產出的sitemap

2、上傳 sitemap.xml

如果是自行架站,在完成製作 sitemap後,接著只要將 sitemap.xml檔案上傳到網站的根目錄下即可;如果是 WordPress架設網站並且搭配YoastSEO等外掛的話,則無須上傳,因為外掛會自動幫忙處理後續工作。 除了使用主機伺服器的檔案管理器上傳之外,也可以利用 FTP或其他文件傳輸工具來上傳Sitemap文件。

主機的檔案管理員

3、提交sitemap.xml

上傳完成後,則可以直接利用 Google Search Console的sitemap功能指令,直接進行提交即可。

利用 Google Search Console提交sitemap.xml

Sitemap 相關注意事項

  • 一個 sitemap最多只譨存放50000筆網頁網址,因此如果是大型網站,可以將頁面區分放置到不同sitemap。例如「部落格文章」建立一個 blog_sitemap.xml存放,「產品頁面」建立一個 product_sitemap.xml存放(前述檔案名稱皆可自訂)。
  • 以澤稼的網站架設經驗,其實也會比較建議上述拆分的方式,因為一但 Google Search Console有回報網站問題,可以直接從中查找。
  • sitemap中,僅放置正常的標準頁面,如有301轉址走的網址,或是利用 Conanical指向別的標準網址的頁面,皆無需放到 sitemap中。

要了解更多關於 sitemap.xml的知識,可以參照 Google說明文件

網址審查(手動提交及檢查)

除了sitemap提交之外,也可以搭配 Google Search Console 的「網址審查」功能,逐一「手動」提交網址,該網址不一定要在sitemap裡,是比較快速的方法,缺點則是每天有一定的額度,且提交時,大約需要等候2-3分鐘才會提交完成,後續一樣要自行追蹤是否有被 Google索引收錄。

Google Search Console 的網址審查功能

Google Search Console 的網址審查功能-審查後,該網址已被Google索引收錄

除此之外,網址審查也可以了解某網址不被 Google索引收錄的原因,例如重複內容、該頁面已經轉址等等,進而調整。

Google Search Console 的網址審查功能-審查後,該網址未被Google索引收錄

注意事項

但這邊需要注意的是:不管是利用 sitemap提交的網址,或是單一手動提交(網址審查功能)的網址, 雖然澤稼建議兩個方式同步進行,但儘管如此,Google 也不一定都會索引收錄。因此如果發現提交過2-3次之後,仍舊是「未索引」的狀態,那麽基本上就需要針對該頁面可能發生的問題,做進一步的人工檢查,並且修正,再重新提交給 Google。

移除網址

除了上述的提交網址之外,有些時候因為某些因素,我們也可以利用 Google Search Console 中的「移除網址」功能,將網站的部分頁面「暫時」從 Google 的搜尋結果中移除;通常適用於以下幾種情況:

  1. 網站上的某個頁面包含了敏感或不當的內容,需要立即移除。
  2. 網站上的某個頁面包含了錯誤或過時的內容,或是頁面內容涉及到個人隱私、版權或其他合法性問題,需要暫時移除以避免影響使用者體驗。
  3. 網站上的某個頁面被怪客( Cracker)攻擊(不是駭客,Hacker),需要立即移除以保護使用者的安全。
  4. 網站上有重複內容或者已經刪除的頁面,但是仍然在Google的搜索結果中出現。

移除網址

要使用「移除網址」功能,需確定已經驗證網站所有權,開啟「移除網址」功能彈窗後,設定要「移除單一網址」或是「移除此網址底下的所有網址(前置字元,類似資料夾的概念)」。

Google Search Console 的網址移除功能

注意事項
  1. 提出移除網址的請求之後,Google會對每一個移除請求進行審核,如果發現移除內容不合法,請求就會被拒絕。
  2. 如果請求通過,移除的網址僅會維持大約六個月的時間,不會出現在搜尋結果頁面上,但 Google爬蟲還是會進行檢索;因此六個月後,該頁面還是會出現 Google 搜尋結果中。
  3. 如果需要永久刪除網站上的內容,可以直接刪除該頁面,或是使用 noindex 標籤告訴 Google 不再索引該頁面。
  4. Google 說明中,為何robots.txt不建議?主要是因為如果已經被索引的頁面,再用robots.txt,只是禁止檢索,但還是會索引,因此 Google不建議用此方式;否則就造成「已建立索引,但遭到robots.txt封鎖」的問題。

Google不建議使用robots.txt移除以建立索引的網址

已建立索引,但遭到robots.txt封鎖

如果你的網站需要做 SEO,本文所提之 sitemap提交和移除網址功能都是很重要的一部分,對於 Google 收錄頁面會產生極大的直接影響,因此,請務必定期確認 Google Search Console 中,是否有遺漏未索引的網頁網址,進一步做提交或後續的處理。