一、建立搜索蜘蛛文件robots.txt

发布时间: 2010年1月18日 | 分类: 独立博客优化 | 作者: 托名汉相

robots.txt是一个纯文本文件,在这个文件中,你可以声明你的独立博客中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当搜索蜘蛛(亦称搜索机器人、爬虫)访问你的独立博客时,它会首先检查根目录下是否存在robots.txt,如果存在,蜘蛛就会按照该文件中的内容来确定访问的范围;如果该文件不存在,蜘蛛就沿着链接抓取。

搜索引擎收录你的独立博客时,会收录几乎所有的内容,但是我们希望搜索引擎只收录博客文章,不收录关键字、目录、登录页面等其他内容,怎么办呢?
robots.txt中指定不让搜索引擎收录的内容
,这样搜索引擎就会只收录我们指定的博客文章了。

我的robots.txt内容如下:
User-agent: *
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /stats/
Disallow: /tag/
Disallow: /cp/
Disallow: /webalizer/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /contact
Disallow: /manual
Disallow: /manual/*
Disallow: /category/
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
Disallow: */feed*
Disallow: */trackback
Disallow: /*?*
Disallow: /?*

User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

你可以使用相同的内容建立robots.txt文件,用六、安装WordPress程序之二:安装中上传文件的方法,将robots.txt文件上传到你独立博客的根目录下。

发表你的意见