什么是robots.txt ?
robots.txt 的概念
robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在其访问网页前会查看是否存在阻止其访问特定网页的 robots.txt 文件。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
如何创建 robots.txt 文件?
User-Agent:适用下列规则的漫游器
Disallow:要拦截的网页
这两行被视为文件中的一个条目。您可根据需要包含任意多个条目。您可在一个条目中包含多个 Disallow 行和多个 User-Agent。
dedecms默认robots.txt 举例
User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
应在 User-Agent 行中列出什么内容?
user-agent 是特定的搜索引擎漫游器。网络漫游器数据库列出了许多常用漫游器。您可设置应用于特定漫游器的条目(通过列示名称)或设置为应用于所有漫游器(通过列示星号)。应用于所有漫游器的条目应与下列条目类似:
User-Agent:*Google 使用多种不同漫游器(用户代理)。用于网络搜索的漫游器是 Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其他漫游器遵循您为 Googlebot 设置的规则,您还可为这些特定漫游器设置附加规则。
应在 Disallow 行中列出什么内容?
Disallow 行列出了您要拦截的网页。您可列出具体网址或网址模式。条目应以正斜杠开头 (/)。
要拦截整个网站,请使用正斜扛。
Disallow:/要拦截目录及其中的所有内容,请在目录名后添加正斜扛。
Disallow:/private_directory/要拦截网页,请列出该网页。
Disallow:/private_file.html网址区分大小写。例如,Disallow: /private_file.html 将拦截 http://www.example.com/private_file.html,但允许 http://www.example.com/Private_File.html。
robots.txt文件用法举例
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
例2. 允许所有的robot访问
User-agent: *
例3. 仅禁止Baiduspider访问您的网站 User-agent: Baiduspider
例4. 仅允许Baiduspider访问您的网站 User-agent: Baiduspider
例5. 禁止spider访问特定目录
User-agent: *
例6. 允许访问特定目录中的部分url
User-agent: *
例7. 使用"*"限制访问url
User-agent: *
例8. 使用"$"限制访问url
User-agent: *
例9. 禁止访问网站中所有的动态页面
User-agent: *
例10. 禁止Baiduspider抓取网站上所有图片
User-agent: Baiduspider
例11. 仅允许Baiduspider抓取网页和.gif格式图片
User-agent: Baiduspider
例12. 仅禁止Baiduspider抓取.jpg格式图片 User-agent: Baiduspider
本文来源于:北京SEO http://www.fireseo.com.cn/ , 原文地址:http://www.fireseo.com.cn/seojishu/what-robots-txt/
- 上一篇:想说一些关于SEO的话
- 下一篇:百度被黑后续报道
- 相关标签:SEO基础 SEO名词
- 引用通告:点击这里获取该日志的TrackBack引用地址
- 相关文章:
- 关键词策略-关键词优化 (2010-1-17 20:35:47)
- 什么是桥页(Doorway Pages)门页,跳页-SEO (2010-1-16 9:26:51)
- 什么是网站跳出率? (2010-1-15 22:52:35)
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。