Robots.txt 是什么, 起什么用处?
Robots.txt 是网站,网站目录等与搜索引擎的交流通道,其能够决定的范围为允许搜索引擎收录的内容,目录等,同样也可设定所有/部分搜索引擎禁止抓取的内容;一些特定的内容,例如某些网站中可能涉及到一些商业秘密,网站用户隐私,不便搜索引擎抓取,从而不希望让其他互联网用户通过搜索引擎查询到相关内容的网站展示的情况,这时网站主可通过设置网站相应位置的 robots.txt 来规定搜索引擎抓取的情况.大多数网站,如果没有相关的禁止抓取需求,无需创建这样的文件.
搜索引擎能够主动侦测到网站Robots.txt
世界主流搜索引擎,如Google,在抓取网站的同时,会主动针对网站相关位置的 Robots.txt 做出处理;并会主动遵循该文件展示出的内容做出相应的抓取,和相应的禁止抓取的内容屏蔽;
Robots.txt 写法, 语法
User-agent: AAAA
Disallow: BBBB
AAAA 规定了搜索引擎蜘蛛,以下是对应关系:
Googlebot - google
Baiduspider - baidu
* - 搜索搜索引擎
BBBB 为设置禁止抓取的文件/目录等,举例说明:
Disallow: /cccc.html
Disallow: /dddd/
该规则中规定了 该目录/网站中禁止抓取的cccc.html 以及 /dddd/ 这个目录

- 评论:(0)
发表评论 点击这里获取该日志的TrackBack引用地址