规则 |
示例 |
禁止抓取整个网站。 请注意,在某些情况下,Google 即使未抓取网站的网址,仍可能会将其编入索引。注意:这不适用于各种 AdsBot 抓取工具,此类抓取工具必须明确指定。 |
User-agent: *
Disallow: /
|
禁止抓取某一目录及其内容(在目录名后面添加一道正斜线)。请注意,若想禁止访问私密内容,则不应使用 robots.txt,而应改用适当的身份验证机制。对于 robots.txt 文件所禁止抓取的网址,Google 仍可能会在不进行抓取的情况下将其编入索引;另外,由于 robots.txt 文件可供任何人随意查看,因此可能会泄露您的私密内容的位置。 |
User-agent: *
Disallow: /calendar/
Disallow: /junk/
|
仅允许使用某一抓取工具 |
User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow: /
|
允许使用除某一抓取工具以外的其他所有抓取工具 |
User-agent: Unnecessarybot
Disallow: /
User-agent: *
Allow: /
|
禁止抓取某一网页(在正斜线后面列出网页):
|
Disallow: /private_file.html
|
禁止 Google 图片访问某一特定图片:
|
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
|
禁止 Google 图片访问您网站上的所有图片:
|
User-agent: Googlebot-Image
Disallow: /
|
禁止抓取某一特定类型的文件(例如 .gif ):
|
User-agent: Googlebot
Disallow: /*.gif$
|
禁止抓取整个网站,但允许在这些网页上显示 AdSense 广告(禁止使用除 Mediapartners-Google 以外的所有网页抓取工具)。这种方法会阻止您的网页显示在搜索结果中,但 Mediapartners-Google 网页抓取工具仍能分析这些网页,以确定要向您网站上的访问者显示哪些广告。
|
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
|
匹配以某一特定字符串结尾的网址 - 需使用美元符号 ($ )。例如,示例代码会禁止访问以 .xls 结尾的所有网址: |
User-agent: Googlebot
Disallow: /*.xls$
|