当前位置: 首页 > SEO学院SEO知识

siterobots.txt文件是什么?

来源:未知 浏览量:238次
对于刚入门的SEO优化人员也许听说过robots.txt文件是什么。那么robots.txt文件协议是什么呢?当蜘蛛访问网站时首先会去访问网站根目录下的robots.txt文件robots文件首先会去访问网站根目录下的robots.txt文件会按照这个 文件摘要指定的robots协议不去抓取网站中的部分内容文件。简单概述的话robots文件就是控制搜索引擎的蜘蛛抓取网站内容的协议robots.txt。聊网站

网站robots.txt文件是什么?

1.robots.txt文件的路径

robotstxt文件固定是在网站根目录下就是网站域名的下一级文件名就是robots.txt如:

https ://www.kexufang.com/ robots.txt

2.robots.txt文件网站必须要有

可能会有SEO优化人员会说网站内容就是想让蜘蛛随意抓取所以服务器放不 其实这种说法是不对的因为robost.txt文件会影响到服务器的设置方面如果robots.txt文件不存在服务器会返回200状态码及一些错误信息而不是 404状态码这很有可能让搜索引擎的蜘蛛误读robots.txt文件的内容。其次就算允许搜索引擎蜘蛛随意抓取也应该创建一个空的robots.txt文件放在网站根目录下

3.robots.txt文件的基本格式

robots文件由记录组成记录之间以空行分开记录格式如下:

空间可以在域值两边可加可不加可以简单记为:<域>:<域值>

robots.txt文件最简单样式为:

用户代理:*

不允许:/

不过此robots.txt文件不建议使用因为这个是禁止所有搜索引擎抓取任何内容

允许所有搜索引擎抓取任何内容的robots.txt为:

用户代理:*

不允许:

4.robots.txt文件的编写方法

4.1.User-agent

指定下面的规则适用于其中蜘蛛通配符星号*代表所有搜索引擎

以下规则适用于所有搜索引擎:User-agent :*

只适用于百度:User-agent:Baiduspider

4.2.Disallow

告诉蜘蛛不要去抓取某些文件或目录写法:每禁止一个抓取一个文件或目 例如禁止抓取temp和a目录禁止抓取b目录下的11.html和22 .html

Disallow:/ temp /

Disallow:/ a /

Disallow:/b/11.html

Disallow:/b/22.html

切勿写为Disallow:/ temp / / a /

4.3.Allow

告诉蜘蛛应该抓取某些文件或目录由于不指定则是允许抓取故Allow必须和Disallow一起用

如禁止抓取目录a下一个文件在允许

Disallow:/ a /

Allow:/ a / b /

4.4。$

通配符$匹配URL结果的字符

如禁止抓取.jpg格式的图片:

不允许:.jpg $

如允许抓取所有.htm文件:

允许:.htm $

4.5。*

通配符*匹配任意字符

4.6.Sitemap

告诉搜索引擎网站sitemaps的位置是对搜索引擎蜘蛛的友好。当然一般情况下sitemaps也是放置网站根目录(如客绪方网络的sitemap位置https://www.kexufang .com / sitemap.xml)

Sitemap:https://www.kexufang.com/ sitemap.xml

robots是禁止抓取的还有一种方式为禁止索引noindex meta robots标签

4.7。禁止索引

noindex meta robots标签是页面 中间的元标记的一种用于告诉搜索引擎禁止索引页面内容因此也就不会出现在搜索引擎的结果页面中 了

格式如下:

<元名称=“ robots” content =“ noindex”nofollow>

意味着为禁止所有搜索引擎索引本页面禁止跟踪页面上方的链接

网站robots.txt文件是什么?

百度仅支持nofollow 和

noarchiveGoogle熊掌号教程禁止跟踪页面上方的链接

网站robots.txt文件是什么?

百度仅支持nofollow 和

noarchiveGoogle必应都支持下面的标签。告诉搜索引擎不要显示

noodp:不要使用开放目录中的标题和描述

最后一个要介绍的就是标签上的rel =“ nofollow”熊掌号教程必应都支持下面的标签。告诉搜索引擎不要显示

noodp:不要使用开放目录中的标题和描述

最后一个要介绍的就是标签上的rel =“ nofollow”最初这个标签的创造是为了告诉告诉搜索引擎这个链接非 站长自主编辑不要传递权重。后来慢慢就变成控制网站权重流动的一种方式

展开全部内容