什么是Robots.txt
编辑Robots.txt标准和Robots.txt协议是阻止机器人访问网站的规则,一般在robots.txt中描述访问限制。
该代码首次创建于 1994 年 6 月,目前还没有该代码的 RFC。
该规则为推荐规则,目的是让robots读取robots.txt文件并停止访问,因此,即使设置了访问阻止,其他人也可以访问该文件。robots.txt文件始终在站点上,它应该位于根目录中。
Robots.txt 允许访问的规则
编辑如果您想允许所有机器人访问文档,您可以在robots.txt中输入以下内容。
用户代理:*允许:/
要阻止所有机器人,您可以在 robots.txt 中键入以下内容:
用户代理:*禁止:/
要阻止所有机器人访问这三个目录,请在 robots.txt 中输入以下内容。
用户代理:*禁止:/cgi-bin/禁止:/tmp/禁止:/junk/
要阻止所有机器人访问特定文件,请在 robots.txt 中输入以下内容。
用户代理:*不允许:/directory/file.html
要阻止对 BadBot 机器人的所有文件访问,请在 robots.txt 中输入以下内容。
用户代理:BadBotDisallow:/
要阻止 BadBot 和 Googlebot 机器人访问特定目录,请在 robots.txt 中输入以下内容。
用户代理:BadBot用户代理:GooglebotDisallow:/private/
可用于各种组合。
User-agent:googlebot#仅适用 googlebot robots Disallow:/private/#禁止访问此目录 User-agent:googlebot-news#仅适用 robots googlebot-newsDisallow:/#禁止访问所有目录 agent:*#适用于所有robots.Disallow:/something/# 阻止访问此目录。
替代方案
编辑您还可以使用 HTML 元标记。
但这种方法并不是通用方法,目前只有少数机器人支持。
百科词条作者:小小编,如若转载,请注明出处:https://www.glopedia.cn/262577/