在线ip地址随机生成器
在线Useragent随机生成工具
在线 shield badge生成
MAC地址生成工具
URL地址解析工具
在线网络拓扑图制作
robots.txt在线生成
模拟HTTP请求工具
更多
robots.txt在线生成
默认 - 所有机器人是:
允许
拒绝
检索间隔:
不限
5 秒
10 秒
20 秒
60 秒
120 秒
Sitemap:
(留空为无)
普通搜索机器人:
Google
默认
允许
拒绝
googlebot
Baidu
默认
允许
拒绝
baiduspider
MSN Search
默认
允许
拒绝
msnbot
Yahoo
默认
允许
拒绝
yahoo-slurp
Ask/Teoma
默认
允许
拒绝
teoma
Cuil
默认
允许
拒绝
twiceler
GigaBlast
默认
允许
拒绝
gigabot
Scrub The Web
默认
允许
拒绝
scrubby
DMOZ Checker
默认
允许
拒绝
robozilla
Nutch
默认
允许
拒绝
nutch
Alexa/Wayback
默认
允许
拒绝
ia_archiver
Naver
默认
允许
拒绝
naverbot, yeti
特殊搜索机器人:
Google Image
默认
允许
拒绝
googlebot-image
Google Mobile
默认
允许
拒绝
googlebot-mobile
Yahoo MM
默认
允许
拒绝
yahoo-mmcrawler
MSN PicSearch
默认
允许
拒绝
psbot
SingingFish
默认
允许
拒绝
asterias
Yahoo Blogs
默认
允许
拒绝
yahoo-blogs/v3.9
限制目录:
路径是相对的,但每个路径之前都要包含:"/"
生成 Robots.txt
什么是robots.txt文件
robots.txt(统一小写)是一种存放于网站根目录下的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎蜘蛛获取的,哪些是可以被(蜘蛛)获取的。
因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。
如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。
robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符。
Robots协议是国际互联网界通行的道德规范,基于以下原则建立:1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;2、网站有义务保护其使用者的个人信息和隐私不被侵犯。
robots.txt文件内容
搜索引擎蜘蛛的是否可访问性或者说可爬行性。
搜索引擎蜘蛛针对目录或者文件的可访问性。
网站站点地图sitemap路径定义。
搜索引擎蜘蛛爬行的时间间隔限制。
关于robots.txt文件生成器
通过web界面设置好要配置的数据, 点击生成器的生成即可在最下方的文本输入框获得robots.txt的文件内容。
现在,你创建一个空白的文本文件,命名为:“robots.txt”,然后把上面的内容,复制并粘贴到“robots.txt”中去。
把“robots.txt”放在你网站的根目录,访问robots.txt,确保他能让访问者(如搜索引擎)访问到。