如果你想要扩展自己的网站搜索引擎排名知识,很可能会好奇robots.txt文件是用来做什么的,以及是否真的需要它。搜索引擎会定期访问我们的网站,并通过它们的爬虫“robots”(所以叫robots.txt文件)对我们的网站上不同的内容进行跟踪。除了谷歌著名的Googlebot之外,还有其他流行的爬虫,像Bing的Msnbot,Yandex的YandexBot,Yahoo的Yahoo_Slurp等等。这些爬虫跟踪我们的网站,发现我们添加的新内容,对其进行评估,最后根据评估结果将其索引到搜索结果(SERPs)中。那么我们来看看这个文件在这里起到了什么作用。
什么是ROBOTS.TXT文本?
robots.txt文件是位于你的网站根目录下的一个文件,它向搜索引擎的机器人提供指示。通过在文件中使用命令,可以告诉爬虫在你的网站中应该如何操作,从而以最符合你利益的方式进行内容的爬取和索引。
ROBOTS.TXT有什么作用?
好,现在我们知道什么是robots.txt文件,了解其主要用途以及如何在网站中充分利用它就显得至关重要了。以下是一些常见的使用方式:
- 通过在文件中使用特定命令,限制搜索引擎爬虫访问你网站的特定部分。
- 通过合理配置robots.txt文件,优化爬虫的爬取预算,不然搜索引擎爬虫会爬取你网站所有内容(包括没用的)而花费时间。如果设置得当,爬虫就无需爬取网站中不太重要或相似内容(如重复内容或分页)
- 通过下面的指令或命令,我们可以在该文件中简单限制爬虫访问你网站的特定目录、子目录、文件和URL,同时还可以指定网站的站点地图。
不过这些针对搜索引擎爬虫的指示,并不会完全保证页面不会最终显示在搜索结果上,因为还要考虑到那些我们决定限制的URL的指向链接。所以如果想要具体使某个页面不显示在搜索结果中,最佳选择始终是实施meta标签robots中的“noindex”属性,而不是通过robots.txt文件限制该页面的访问。
你真的需要它嘛?
robots.txt文件并非强制性的,只有当我们希望限制网站的某些部分对搜索引擎的机器人时才会使用。具体来说,如果您想要以下任何一项,就可以创建robots.txt文本:
- 将网站的某些部分隐藏起来,不被搜索引擎索引。
- 限制重复内容的访问。
- 限制代码文件的访问。
- 向搜索引擎的爬虫指示网站地图。
- 限制网站的特定目录或子目录的访问。
ROBOTS.TXT指令
能在robots.txt文件里使用的主要命令有以下(其实有更多指令,不过常见的就这些):
- User-agent:指定适用于哪个搜索引擎机器人的规则。
– 如果我们写入User-agent: *,表示这些规则适用于所有机器人。
– 如果我们写入User-agent: Googlebot,只有Googlebot会遵守下面描述的指令。 - Disallow:用于限制对特定目录、子目录或页面的访问。
– 例如,Disallow: /wp-admin/ 可以阻止对/wp-admin/目录的访问。 - Allow:与Disallow相反,允许对网站的访问。它可以告诉机器人在Disallow规则下的某些页面,我们希望它们被爬取。大多数搜索引擎默认会访问允许访问的所有内容,所以通常情况下不需要使用 “Allow” 指令。
- Crawl-delay: 指定爬虫访问网站的延迟时间,以秒为单位。这个指令可以用来限制爬虫访问网站的速度,以减轻服务器负载。
- Sitemap:使用此命令指定站点地图的路径,告诉搜索引擎机器人网站上地图的位置。