什麼是Robots.txt
Robots.txt 是一個用於管理搜尋引擎爬蟲的文字檔案。
使用Robots來指示搜尋引擎爬蟲哪些頁面或部分內容可以被抓取和索引,哪些不可以爬取。Robots規則檔案通常位於網站的根目錄下,名稱為 robots.txt。
為什麼Robots.txt對谷歌SEO很重要?
1.控制搜尋引擎爬蟲訪問
網站管理員控制哪些頁面或部分內容可以被搜尋引擎爬蟲訪問和索引。這有助於避免不必要的頁面被索引,例如:
重複內容
臨時頁面或測試頁面
後臺管理頁面
無關緊要或低質量的頁面
透過限制這些內容,可以提高重要頁面在搜尋結果中的表現。
2.提高抓取效率
搜尋引擎爬蟲有一個抓取預算,即它們在每個網站上花費的時間和資源是有限的。透過使用 robots.txt 檔案阻止爬蟲訪問無關或低價值的頁面,可以將爬蟲的抓取預算集中在更重要的頁面上,從而提高這些頁面的索引速度和頻率。
3.遮蔽非公開頁面
某些頁面或檔案可能包含敏感資訊(例如感謝頁面),不希望被公開搜尋或索引。透過robots.txt,可以阻止搜尋引擎爬蟲訪問這些內容,從而防止它們出現在搜尋結果中。
4.避免搜尋引擎懲罰
一些搜尋引擎(包括谷歌)可能會對重複內容、低質量頁面或違反搜尋引擎指南的內容進行懲罰。透過 robots.txt 檔案,可以有效地管理和控制這些內容,避免不必要的搜尋引擎懲罰,從而維護或提高網站的搜尋排名。
正確使用Robots.txt的流程
1.Robots規則
格式規範:
檔案命名:檔名必須為robots.txt,且全部字母小寫。
存放位置:該檔案應存放在網站的根目錄下,即域名直接指向的目錄。
格式:robots.txt檔案應為純文字檔案,不包含任何HTML或指令碼程式碼。
註釋:可以使用#符號新增註釋,註釋內容不會被搜尋引擎解析。
空行:為了提高檔案可讀性,可以在指令之間留有空行。
指令與規則:
robots.txt檔案由一系列的指令組成,每個指令佔一行。常見的指令包括User-agent、Disallow、Allow和Sitemap。
①User-agent
作用:指定以下規則適用的搜尋引擎爬蟲名稱
語法:User-agent: [爬蟲名稱]。其中,*代表適用於所有爬蟲
示例:
Disallow
作用:指定禁止爬蟲訪問的URL路徑
語法:Disallow: [路徑]。路徑可以使用萬用字元*和$,其中*代表任意字元序列,$代表路徑的結尾
示例:
Allow
作用:與Disallow相反,指定允許爬蟲訪問的URL路徑。通常與Disallow一起使用,以覆蓋更廣泛的Disallow規則
語法:Allow: [路徑],路徑規則與Disallow相同。
示例:禁止爬蟲訪問整個 /wp-admin/ 目錄,但需要允許訪問 admin-ajax.php 檔案。
Sitemap
作用:指定網站地圖的URL地址,幫助搜尋引擎更好地抓取網站內容
語法:Sitemap: [URL]
示例:
注意事項:
區分大小寫:搜尋引擎爬蟲對大小寫敏感,因此在編寫robots.txt檔案時需要注意區分大小寫。
有效性驗證:編寫完畢可以透過搜尋引擎工具或線上驗證工具來驗證robots.txt檔案的有效性。
避免誤封禁:在編寫規則時要仔細檢查,確保不會誤封禁重要的網頁或資源。
定期更新:根據網站的變化情況,定期更新robots.txt檔案是必要的。
2.手動建立Robots檔案
使用文字編輯器建立一個新的檔案,並命名為 Robots.txt。在robots.txt 檔案中新增你希望搜尋引擎遵循的規則,編寫示例:
該檔案表示:
所有爬蟲都不允許訪問 /admin/, /login/ 和 /private/ 目錄,但允許訪問 /public/ 目錄。
僅谷歌爬蟲不允許訪問 /test/ 目錄。
最後新增上網站的Sitemap
3.Robots檔案上傳到網站