什么是Robots.txt
Robots.txt 是一个用于管理搜索引擎爬虫的文本文件。
使用Robots来指示搜索引擎爬虫哪些页面或部分内容可以被抓取和索引,哪些不可以爬取。Robots规则文件通常位于网站的根目录下,名称为 robots.txt。
为什么Robots.txt对谷歌SEO很重要?
1.控制搜索引擎爬虫访问
网站管理员控制哪些页面或部分内容可以被搜索引擎爬虫访问和索引。这有助于避免不必要的页面被索引,例如:
重复内容
临时页面或测试页面
后台管理页面
无关紧要或低质量的页面
通过限制这些内容,可以提高重要页面在搜索结果中的表现。
2.提高抓取效率
搜索引擎爬虫有一个抓取预算,即它们在每个网站上花费的时间和资源是有限的。通过使用 robots.txt 文件阻止爬虫访问无关或低价值的页面,可以将爬虫的抓取预算集中在更重要的页面上,从而提高这些页面的索引速度和频率。
3.屏蔽非公开页面
某些页面或文件可能包含敏感信息(例如感谢页面),不希望被公开搜索或索引。通过robots.txt,可以阻止搜索引擎爬虫访问这些内容,从而防止它们出现在搜索结果中。
4.避免搜索引擎惩罚
一些搜索引擎(包括谷歌)可能会对重复内容、低质量页面或违反搜索引擎指南的内容进行惩罚。通过 robots.txt 文件,可以有效地管理和控制这些内容,避免不必要的搜索引擎惩罚,从而维护或提高网站的搜索排名。
正确使用Robots.txt的流程
1.Robots规则
格式规范:
文件命名:文件名必须为robots.txt,且全部字母小写。
存放位置:该文件应存放在网站的根目录下,即域名直接指向的目录。
格式:robots.txt文件应为纯文本文件,不包含任何HTML或脚本代码。
注释:可以使用#符号添加注释,注释内容不会被搜索引擎解析。
空行:为了提高文件可读性,可以在指令之间留有空行。
指令与规则:
robots.txt文件由一系列的指令组成,每个指令占一行。常见的指令包括User-agent、Disallow、Allow和Sitemap。
①User-agent
作用:指定以下规则适用的搜索引擎爬虫名称
语法:User-agent: [爬虫名称]。其中,*代表适用于所有爬虫
示例:
Disallow
作用:指定禁止爬虫访问的URL路径
语法:Disallow: [路径]。路径可以使用通配符*和$,其中*代表任意字符序列,$代表路径的结尾
示例:
Allow
作用:与Disallow相反,指定允许爬虫访问的URL路径。通常与Disallow一起使用,以覆盖更广泛的Disallow规则
语法:Allow: [路径],路径规则与Disallow相同。
示例:禁止爬虫访问整个 /wp-admin/ 目录,但需要允许访问 admin-ajax.php 文件。
Sitemap
作用:指定网站地图的URL地址,帮助搜索引擎更好地抓取网站内容
语法:Sitemap: [URL]
示例:
注意事项:
区分大小写:搜索引擎爬虫对大小写敏感,因此在编写robots.txt文件时需要注意区分大小写。
有效性验证:编写完毕可以通过搜索引擎工具或在线验证工具来验证robots.txt文件的有效性。
避免误封禁:在编写规则时要仔细检查,确保不会误封禁重要的网页或资源。
定期更新:根据网站的变化情况,定期更新robots.txt文件是必要的。
2.手动创建Robots文件
使用文本编辑器创建一个新的文件,并命名为 Robots.txt。在robots.txt 文件中添加你希望搜索引擎遵循的规则,编写示例:
该文件表示:
所有爬虫都不允许访问 /admin/, /login/ 和 /private/ 目录,但允许访问 /public/ 目录。
仅谷歌爬虫不允许访问 /test/ 目录。
最后添加上网站的Sitemap
3.Robots文件上传到网站