网站首页 SEO入门到精通

SEO站内优化：robots.txt设置及应用（十六）

发布时间：2020-02-04来源：马兔子作者：马兔子阅读：(0)字号：大中小

在优化网站过程中，有些时候，网站中有重要及私密的内容，站长并不希望某些页面被蜘蛛抓取，比如后台的数据、测试阶段的网站。还有一种很常见的情况，搜索引擎抓取了大量没有意义的页面，如电子商务网站按照各种条件过滤、筛选的页面等。而要确保页面不被抓取，需要使用robots.txt 文件。关于robots.txt的介绍，之前也有写过，可以参考《如何设置网站robots.txt》。

robots.txt是一个纯文本文件，用于声明该网站中不想被蜘蛛访问的部分，或者指定蜘蛛抓取的部分。当蜘蛛访问一个站点时，它会首先检查该站点是否存在robots.txt 文件，如果找到，蜘蛛就会按照该文件中的内容来确定抓取的范围；如果该文件不存在，那么蜘蛛就会沿着链接直接抓取。即，只有在需要禁止抓取某些内容时，写robots.txt才有意义。

robots.txt 文件放置在一个站点的根目录下，而且文件名必须全部小写，正确的写法是robots.txt。要查看某网站的robots.txt文件，在浏览器中输入的网址是http:/www.xxx.com/robots.txt,其中www.xxx.com是要查询网站的域名。

1.robots.txt的语法

robots.txt文件的常用语法有3种，分别是User-agent、Allow、Disallow，下面讲解3种语法的具体用法。

(1) User-agent

指定robots.txt 中的规则针对哪个搜索引擎蜘蛛。

针对所有搜索引擎蜘蛛的写法是User-agent:*，通配符*代表所有搜索引擎。只适用于百度蜘蛛的正确写法是User-agent:Baiduspider。不同的搜索引擎，其蜘蛛名称也不相同，表3-1所示是不同搜索引擎的蜘蛛名称。

表3-1 不同搜索引擎的蜘蛛名称

SEO站内优化：robots.txt设置及应用（十六）

(2 )Allow

允许搜索引擎蜘蛛抓取某些文件。例如允许蜘蛛访间网站中的/a/目录，正确写法是Allow:/a/。

$: 表示匹配URL 结尾的字符。例如允许搜索引擎抓蜘蛛取以.htm为后缀的URL，写法是Allow:.htm$。

(3) Disallow

点诉规索引学如统不要抓取某些文件或目录。彻如禁止蜘蛛抓取/admin/目录的写法是 Disallow:/admin/。

禁止的目录或文件必须分开写，每个一行，例如禁止所有的搜索引擎蜘蛛抓取/a/、/b/、/c/目录，正确的写法是：

User-agent:

Disallow:/a/

Disallow:/b/

Disallow:/c/

在网站优化中，SEO人员需要熟练掌握robots.txt的基本语法。下面分享一些常见的robots.txt语法使用案例，如表3-2所示。

表3-2 robots.txt 语法使用案例

SEO站内优化：robots.txt设置及应用（十六）

2.robots.txt应用

robots.txt 文件的一个用法是在robots.txt 文件中指定 sitemap 的位置。具体的用法是 sitemap:http://www.matuzi.cn/sitemap.xml，这样就告诉搜索引擎蜘蛛这个页面是网站地图。

robots.txt 文件是搜索引擎蜘蛛进入网站后访问的第一个文件，在编写时确实有很多需要注意的地方，如果日常使用中不注意语法的正确使用，有些语句可能就发挥不了应有的作用，会影响搜索引擎对网站的访问，因此要正确编写。可以参考《如何设置网站地图》。

对于SEO人品来讲，在优化网站过程中，当发现网站中有隐私文件需要屏蔽搜索引擎蜘蛛抓取时，可以设置robots.txt 屏蔽搜索引擎蜘蛛抓取这些隐私文件。而网站中没有要屏蔽的内容时，可以不添加robots.txt。

3.robots meta标签

如果搜索引警已经收录网页，而这个网页是我们不想让搜索引掌收录的，robots.txt 文件解决不了这个问题，而robots meta标签却可以解决。

robots.txt 文件主要是限制整个站点或者目录的蜘蛛访问情况，而robots meta标签则主要是针对某个具体的页面。robots meta标签放在页面中，专门用来告诉搜索引擎如蛛如何抓取该页的内容。

robots meta标签的基本写法是<meta name="robots"content="indes.folow>，其中有几项需要特别注意的内容。

(1)在robots meta 标签中，name="robots"表示所有的搜索引擎，也可以针对某个具体的搜索引擎，如针对百度搜索引擎可以写为name="Baiduspider"。

(2）content部分有4个指令选项，以英文逗号“，”隔开，分别是：index、follow、noindex、nofollow。

● index指令告诉搜索引擎蜘蛛可以抓取该页面。

● noindex指令与index指令相反，表示搜索引擎蜘蛛不可以抓取该页面。

● follow 指令表示搜索引擎蜘蛛可以爬行该页面上的链接。

● nofolow指令与follow指令相反，表示搜索引擎蜘蛛不可以爬行该页面上的其他链接。

综上所述，robots meta标签有以下4种组合：

当robots meta 标签的content值为"index,follow"时，表示该页面可以被抓取，该页面上的链接也可以被继续爬行下去，robots meta标签可以简写为。

当robots meta标签的content值为”noindex,nofolow"时，表示该页面不可以被抓取，该页面上的链接也不可以被继续爬行，robots meta标签可以简写为。

robots meta标签是限制某个具体页面的蜘蛛访问情况，因此当发现网站中某个页面需要屏蔽蜘蛛抓取时，可以在该页面的源代码中添加robots meta标签，robots meta标签添加在页面的之间。

关键字词：

转载请注明：SEO站内优化：robots.txt设置及应用（十六）
版权声明：本站原创文章，由马兔子发表在SEO入门到精通分类下，于2020-02-04最后更新

上一篇：SEO站内优化：站内URL链接优化（十五）

下一篇：SEO站内优化：网站HTML代码优化（十七）

您当前的位置：主页 > 教程合集 > SEO入门到精通 > 网站首页SEO入门到精通

SEO站内优化：robots.txt设置及应用（十六）

相关文章

您当前的位置：主页 > 教程合集 > SEO入门到精通 > 网站首页 SEO入门到精通