robots.txt 文件是网站所有者用来向搜索引擎爬虫发布指令的标准方式。它位于网站的根目录下,通常被称为"机器人协议"或"蜘蛛协议"。这个文件告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。尽管 robots.txt 文件是可选的,但大多数主要的搜索引擎都会遵循这些指令。
以下是 robots.txt 指令的主要内容:
User-agent 指令用于指定该规则适用的搜索引擎爬虫。可以指定多个 User-agent,每个规则都要以 User-agent 开头。例如:
User-agent: Googlebot
User-agent: Bingbot
User-agent: *
第一行指定规则适用于 Google 搜索引擎爬虫,第二行指定规则适用于 Bing 搜索引擎爬虫,第三行指定规则适用于所有搜索引擎爬虫。
Disallow 指令用于指定禁止搜索引擎爬虫访问的页面或目录。例如:
Disallow: /admin/
Disallow: /private/
Disallow: /*.php$
第一行指定禁止爬虫访问 /admin/ 目录,第二行指定禁止访问 /private/ 目录,第三行指定禁止访问以 .php 结尾的页面。
Allow 指令用于指定允许搜索引擎爬虫访问的页面或目录,通常用于覆盖 Disallow 指令。例如:
User-agent: *
Disallow: /
Allow: /public/
第一行指定规则适用于所有搜索引擎爬虫,第二行指定禁止访问网站的所有页面,第三行指定允许访问 /public/ 目录。
Crawl-delay 指令用于指定搜索引擎爬虫访问网站的时间间隔,以秒为单位。例如:
User-agent: Googlebot
Crawl-delay: 5
这个指令告诉 Google 搜索引擎爬虫,每次抓取网页之间需要等待 5 秒钟。
Sitemap 指令用于指定网站的 Sitemap 文件的位置。Sitemap 文件包含网站所有页面的 URL,可以帮助搜索引擎更好地了解网站的结构和内容。例如:
Sitemap: https://www.example.com/sitemap.xml
这个指令告诉搜索引擎爬虫,网站的 Sitemap 文件位于 https://www.example.com/sitemap.xml。
除以上主要的 robots.txt 指令外,还有一些其他的指令,如 Host、Noindex、Nofollow 等,这些指令较为专业和复杂,在此不做详细介绍。robots.txt 文件是网站优化和管理的重要工具,合理使用这些指令可以帮助网站更好地控制搜索引擎爬虫的访问行为。