wordpress的Robots.txt规则

4,577 views次阅读
6 条评论

WordPress的SEO默认做的已经非常强大了,当然也还有很大的优化空间。其中Robots.txt优化是Wordpress优化最重要的一个环节。搜索引擎对网页的抓取首先就是从读取的Robots.txt开始的。在Wordpress中,Robots.txt的作用主要就是屏蔽一些重复的内容放置被重复抓取。目前各种的Robots.txt的写法很多,但几乎功能都是一样的。

robots.txt是一个存放在网站根目录下的文本文件,这个文件用于指定spider在您网站上的抓取范围,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名。

使用WordPress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,归纳大致有以下几种方法。

最简单的开放写法
**************************************************
User-agent: *
Disallow:
**************************************************

使用说明:允许所有蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。

最简单的严格写法
**************************************************
User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
**************************************************

使用说明:允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。

Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。

最合理的写法
**************************************************
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://domain/sitemap.xml
**************************************************

使用说明:允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果,包含sitemap.xml地址

当然,如果你像我一样懒的,推荐你使用站长工具自动生成robots.txt

 

 

正文完
 0
评论(6 条评论)
2012-10-13 11:55:30 回复

:mrgreen:

 中国香港香港新世界
    2012-10-13 13:45:22 回复

    @peascloud @peascloud 呵呵,我也是用了Baidu Sitemap Generator插件提示最好设置robots.txt的

2012-10-13 19:10:18 回复

从来不管这个,只管sitemap

 中国辽宁省大连市铁通
2012-10-13 20:40:23 回复

某些蜘蛛不听这些命令。