WordPress博客中robots.txt的写法
以前没有管robots.txt的写法,现在关注了想自己重写自己wordpress博客的robots.txt,特地在网上搜索整理了一下,发现robots.txt还是很重要的。
robots.txt的介绍
robots.txt是一个纯文本文件,robots.txt文件用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。搜索引擎蜘蛛 spider(Googlebot/Baiduspider)来访问你的网站页面的时候,首先会查看你的网站根目录下是否有robots.txt文件,如果有则按照里面设置的规则权限对你网站页面进行抓取和索引。
robots.txt的作用
- 通过设置屏蔽搜索引擎访问不必要被收录的网站页面,可以大大减少因spider抓取页面所占用的网站带宽,小网站不明显,大型网站就很明显了。
- 设置robots.txt可以指定google或百度不去索引哪些网址,比如我们通过url重写将动态网址静态化为永久固定链接之后,就可以通过robots.txt设置权限,阻止Google或百度等搜索引擎索引那些动态网址,从而大大减少了网站重复页面,对SEO优化起到了很明显的作用。
robots.txt的注意事项
- 如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
- robots.txt必须放置在一个站点的根目录下,在子目录下无效。如:通过http://www.xiaojie.me/robots.txt 可以成功访问到,则说明本站的放置正确。
- robots.txt,User-agent,Disallow等必须注意大小写,不能变化。
- User-agent,Disallow等后面的冒号必须是英文状态下的,冒号后面可以空一格,也可以不空格。
- User-agent表示搜索引擎spider:星号“*”代表所有spider,Google的spider是“Googlebot”,百度是“Baiduspider”。
- Disallow:表示不允许搜索引擎访问和索引的目录。至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。
下面是小杰博客的robots.txt:
User-agent: *
Disallow: /wp-*
Disallow: /?
Disallow: /feed
Disallow: /*/*/feed
Disallow: /trackback
Disallow: /*/*/trackback
Disallow: /index.php?
Disallow: /index.php/
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Sitemap:http://www.xiaojie.me/sitemap_google.xml
Sitemap:http://www.xiaojie.me/sitemap_baidu.xml
Sitemap:http://www.xiaojie.me/sitemap_google.xml.gz
上面是小杰博客针对使用wordpress的写法,可供参考。很多wordpress博友还自创了很多robots写法,下面列举一些仅仅作为参考:
Disallow: /page/
#限制抓取Wordpress分页Disallow: /category/*/page/*
#限制抓取分类的分页Disallow: /tag/
#限制抓取标签页面Disallow: /category/*
#限制抓取所有分类列表
其实robots.txt并没有固定格式,大家想怎么写就怎么写,每个人都有自己的经验和技巧,最主要就是要防止自己的隐私也被搜索引擎抓取了就好。
如果大家还想进一步了解,可以查看Google和百度对robots.txt文件的介绍: Google robotstxt,百度 robots.txt。
robots.txt协议并不是一个规范,而是很多搜索引擎约定俗成的,所以每个搜索引擎遵守robots.txt的方式也不一样,在你修改robots.txt文件时,可以用Google管理员工具检测一下robots.txt是否符合规范,登录后访问“工具 -> 分析 robots.txt”,检查文件有效性。



2012/03/05 17:53:14
嗯 很好的分享。顺便问一下,可以和贵站交换一个链接吗
2012/03/08 18:11:49
不好意思,暂不交换友链
2012/02/29 20:26:20
不错哦,学习了!!
2012/02/24 15:01:11
不错的文章,学习了
2011/10/18 11:35:27
很好,分享了!
2011/09/10 14:17:03
总结的不错~
学习了。
2011/08/18 05:38:06
sitemap应该放在最上面吧,放在最下面好吗?
2011/07/25 18:25:50
分析的确实是不错,如果配上图片就更加好了,呵呵
2011/06/29 16:37:24
以前没有管robots.txt的写法,现在关注了想自己重写自己wordpress博客的robots.txt,特地在网上搜索整理了一下,发现robots.txt还是很重要的。
2011/06/05 03:14:36
[...] 在网站管理工具里乱点 蛋疼地写个robots.txt玩 参考了 WordPress博客中robots.txt的写法 wordpress robots.txt设置-google百度seo优化差异 WordPress博客robots.txt写法 [...]
2011/05/21 17:51:49
我才发现我以前的robots.txt写错了!
2011/05/05 06:43:42
很久以前就听说这个东西对SEO有影响,不过一直懒得弄!唉,还是太懒了呀!
2011/05/06 12:56:46
勤快一下,对网站更有利哦
2011/05/05 00:29:47
确实是个不错的教程
2011/05/06 12:57:02
谢谢支持了哦,呵呵
2011/04/17 03:22:14
Very nice!…
I could not have said it any better my friend! Please Keep up the awesome work my friend. You are very talented & I pray that I can write as good as you someday…
2011/04/12 16:41:12
Awesome informative blog post!…
I couldnt have said it any better to be honest! keep up the awesome work. You are very talented & I only wish I could write as good as you do
…
2011/03/28 16:02:19
支持,谢谢分享了~
2011/03/28 16:01:09
学习了
2011/02/13 23:07:04
看看博主的技术教程正好需要,然后顺便回访
2011/02/14 22:23:41
对你有帮助就好了,呵呵。。。多多交流哦
2011/01/24 15:41:53
google-sitemap-generator这个插件貌似可以自动生成虚拟的robots.txt
2011/01/25 00:24:37
是吗?这个功能我还真不知道呢,有空研究一下
2011/01/16 21:59:38
学习了 ,以前对这个还不太熟悉呢 ,嘿嘿 以后会常来的
2011/01/16 23:10:44
这个文件时很关键的,呵呵。。
2011/01/08 19:59:46
不好意思,我的博客出了点问题重新安装了,跳出:
要允许本页面自动修复数据库问题,请将下面一行加入您的 wp-config.php 文件。完成后请刷新本页面。
define(‘WP_ALLOW_REPAIR’, true);
我该怎么做
2011/01/09 10:03:34
那就是在wp-config.php加上那句啊,
可以q我302735767
2011/01/06 20:37:06
robots.txt还是有必要的,毕竟搜索引擎爬到你的站,第一个认的就是它。
2011/01/06 20:47:12
昨天我还刚刚更改过了,我发现我的谷歌收录又在减少,发现谷歌检索了我的page页,结构很多页面重复,所以刚刚把page也拒绝索引了
2010/12/24 16:56:08
不知道楼主用不用wordpress中文工具箱,我安装了wp工具箱,想放在首页右侧,我知道是放在sidebar php里,想问楼主,我要将最新文章类的函数放在sidebar文件中哪个函数前。
2010/12/24 22:53:14
这里有一个很详细的使用方法,你可以看一下http://www.missyuan.com/thread-325283-1-1.html
如果有什么问题可以再来给我留言,我尽量帮你
2010/12/25 09:31:29
我是不是将 对应函数:后面的一段函数复制到siderbar php中去呢,就能使用了呢.
2010/12/25 09:47:13
不只是简单的复制过去就行,需要安装你侧边栏的布局,调整的,更或者需要css调整的
2010/12/25 09:59:07
虽然还是不知道该怎么具体怎么弄,还是谢谢你,让我知道大体该去怎么做
2010/12/25 16:09:46
嗯,不客气,呵呵。。。有问题再来留言就可以
2010/12/05 21:23:42
我以前也没重视过,看来也得搞一下这个了
2010/12/05 22:37:38
这个其实很有用的啊,对搜索引擎友好
2010/11/30 19:59:27
很早就听说过,但从没重视过。
有空研究研究……
谢谢博主
2010/11/30 21:13:50
客气,互相交流学习啊
2010/10/21 16:37:10
一直是默认的!没修改过!
2010/10/21 16:40:50
还是修改一下有利于搜索引擎收录 的
2010/10/12 11:20:33
你这个要比我那个要好看点也容易理解一点
2010/10/12 11:56:22
呵呵。。。也是总结别人的
2010/10/11 21:47:05
我用的就是wp的 哈哈 有用
2010/10/11 22:22:05
我看了下你的博客,robots.txt还是默认的,还是修改一下的好哦
2010/10/11 16:01:14
总结的不错~
2010/10/11 16:26:04
谢谢支持了哈,欢迎常来交流
2010/10/11 15:10:31
robot.txt必须要自己写一下吗?
我没动robot.txt,会有影响吗?呵呵
2010/10/11 11:23:29
看来我只能说ZBLOG路过了
2010/10/11 11:52:37
z-blog我是不怎么熟悉,你可以自己研究一下啊