robots.txt文件的作用及写法

来源：未知浏览 257次时间 2021-05-02 03:04

机器人协议（也称为爬虫协议机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol）企业网站机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol）网站通过机器人协议告诉搜索引擎其中页面可以抓取robots文件网站通过机器人协议告诉搜索引擎其中页面可以抓取其中某些页面不能抓取写法。

＃＃

Robots.txt文件的本质

robots.txt是搜索引擎蜘蛛访问网站时要查看的第一个文件并且会根据robots.txt文件的内容来爬行网站作用。在某种意义上说

当搜索引擎蜘蛛访问网站时它会首先检查该站点根目录下是否存在robots.txt文件如果该文件存在搜索引擎蜘蛛就会按照该文件中的内容来确定爬行的范围；如果该文件不存在则所有的搜索引擎蜘蛛将能够访问网站上所有没有被密码保护的页面文件。如果我们不配置robots文件那么蜘蛛来到网站以后会无目的的爬行造成一个结果就是需要它爬行的目录没有爬行到不需要所以机器人文件对于我们做网站优化来说具有很重要的影响robots.txt。

网站没有Robots.txt文件的缺点端

如果网站中没有 robots.txt文件则网站中的程序脚本样式表等一些和网站内容无关的文件或目录甚至被搜索引擎蜘蛛爬行也不会增加网站的收录率和权重企业网站也不会增加网站的收录率和权重只会浪费服务器资源；搜索引擎派出的蜘蛛资源也是有限的我们要做的应该是应该让蜘蛛爬行网站重点文件目录替换的节约蜘蛛资源。Robots.txt文件的放置位置

网站根目录下通过“域名/ robots .txt”能正常访问即可如域名/robots.txt

robots.txt文件的作用及写法

迪思网站托管Robots.txt文件的说明

用户代理：*

（注释：此处的*代表所有的搜索引擎种类*是一个通配符；当然你也可以针对某个搜索引擎如用户代理：Baiduspider用户代理：360Spider用户代理：Sogouspider。）

不允许： / i * /

（注释：Disallow为禁止爬行如果需要禁止蜘蛛爬行images目录可以写为Disallow：/ images /；推荐本站采用的写法Disallow：/ i * /企业网站Disallow：/ i * /可以在一定尺寸提高网站的安全性如果写成不允许：/ images /可能会暴露网站后台文件路径特别是管理路径。