浅谈WordPress网站robots.txt文件的正确写法

江湖扛把子
01.03 22:32* 字数 2042 阅读 47 点评 0 喜欢 2 收藏 0

robots.txt文件是一个应该存放在网站根目录里面的文本文件,该文件是用来正确引导搜索引擎抓取和收录页面的,用来告诉搜索引擎哪些页面可以收录而哪些不可以,所以正确编写 robots.txt 文件显得尤为重要。

WordPress 博客程序默认是有自动生成 robots.txt 文件,但是文件很简单,只有三行代码:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

很显然 WordPress 自动生成的 robots.txt 文件有点草率,明显是不适应网站搜索引擎优化的,因此,为 WordPress 网站手动编写 robots.txt 文件应该成为建站的重要工作。

编写 robots.txt 必须要谨慎,否则一不小心输入错误,就会导致整个网站收录情况受到影响,得不偿失! 所以特别写来此文来论述一下 robots.txt 的正确写法。

robots.txt 的基本语法

文件头部规则:

以 User-agent:开头,用来指定搜索引擎蜘蛛,如果要针对百度搜索蜘蛛,可以输入

User-agent: Baiduspider

其他常见蜘蛛还有 Googlebot(谷歌)、360Spider(360)、Sogou Spider(搜狗)

如果要对全体搜索引擎起作用,则输入

User-agent: *

Disallow 规则:

Disallow: /abc (表示禁止访问收录 abc.php、abc.html 和 abc 文件夹下的所有文件)
Disallow: /abc/ (表示仅禁止访问 abc 文件夹下的所有文件,但是不限制 abc.php、abc.html 文件)

Allow 规则:(同 Disallow)

*和$的使用规则:

*表示通配符

Disallow: /cgi-bin/*.htm (表示禁止收录 cgi-bin 文件夹下的所有 htm 后缀的文件)
Disallow: /*?replytocom= (表示禁止收录含有“replytocom=”字符的地址)

$用于通指禁止访问某后缀的文件

Disallow: /*.css$ (表示禁止收录以 css 后缀的文件)

Sitemap 规则:

Sitemap 用来告诉搜索引擎网站地图的位置,写法就是

Sitemap: http://www.***.com/sitemap.xml

WordPress 网站的结构简单易懂,所以 robots.txt 编写还是比较简单的。

为了避免收录 WordPress 系统文件:

Disallow: /wp-admin/
Disallow: /wp-includes/ (这两条是 WordPress 自动生成的,一定要保留)
Disallow: /wp-content/plugins (禁止收录插件目录)
Disallow: /wp-content/themes (禁止收录模板目录)
Disallow: /wp-content/uploads (看个人喜好,如果希望网站的图片被收录,则可以去掉这条)

为了避免收录重复的内容:

Disallow: /feed
Disallow: /articles/*/feed (这两条用来禁止收录内容重复的 feed 源)
Disallow: /tag/ (用于禁止收录 tag 标签页)
Disallow: /category/ (用于禁止收录文章目录,因为此页面都是无意义的文章列表)
Disallow: /page/ (禁止收录翻页的页面)
Disallow: /*?replytocom= (禁止收录评论页面)
Disallow: /trackback (禁止收录 trackback,如果关闭了此功能可以删掉)
Disallow: /*?* (禁止访问带?的页面,如果使用默认文章固定链接的千万不要添加这一句)

为了正确引导搜索引擎找到网址地图(如果有的话)

Sitemap: http://www.***.com/sitemap.xml

总结全部的 robots.txt 全文如下:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/uploads
Disallow: /feed
Disallow: /articles/*/feed
Disallow: /tag/
Disallow: /category/
Disallow: /page/
Disallow: /*?replytocom=
Disallow: /trackback
Disallow: /*?*
Sitemap: http://www.***.com/sitemap.xml

将代码编写在记事本上,然后保存为 robots.txt,直接上传到网站的根目录就可以生效了,千万不要搞错放在了主题文件夹里面,检查方式可以直接在地址栏上输入“域名+robots.txt”,如果能正确访问就可以。

建议上传之后,最好用百度站长平台中的“网站分析”→“robots”检查一下语法是否正确,确保万无一失。

收藏
    0人收藏
    创作基地
    登录 后继续操作

    暂无点评

    翩翩如你,何不留下字字珠玉~

    发布点评

    该作品被以下节点收录