wordPress 网站的 robots.txt 如何设置(最全教程)

Robots 协议 (也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

一、设置 Robots协议 的意义

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

每一个被爬行的网站都有一个爬行预算。爬行预算主要是搜索引擎在任何给定时间都可以爬行的有限页面数量,谁都不想把爬行预算浪费在低质量,垃圾的或不重要的页面上。这就是robots.txt文件的作用,可以使用robots.txt文件指定搜索引擎应该忽略哪些页面、文件和目录(以及其他搜索引擎),允许搜索引擎机器人把重点放在重要高质量的内容上。具体可参考:《 robots.txt 文件的全面介绍》

robots.txt 并非必须,如果你希望网站的所有文件都可以被搜索引擎抓取,不需要设置 robots.txt 。反之,如果你希望对搜索引擎有所限制,请设置好 robots.txt

二、WordPress 网站的Robots.Txt的基本内容

我们的建议:为了让搜索引擎上出现我们希望出现的网站内容,要特别设置 robots.txt

注意事项

  • 避免收录WordPress系统文件
  • 避免收录重复的内容
  • 正确引导搜索引擎找到网址地图

下面分享一个基本的 robots.txt 内容。

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /feed Disallow: /articles/*/feed Allow: /wp-content/uploads/ Sitemap: http://example.com/sitemap.xml

你可以直接复制下来,另存为TXT文件,直接使用。记得把最后一行网站地图URL里面的网址换成你的网站的地图网址。

提醒, robots.txt 请上传至网站根目录。

三、拒绝垃圾蜘蛛

如果你希望网站资源更充分的使用,就要注意是否有垃圾蜘蛛来访问。垃圾蜘蛛是指与我们目标的搜索引擎无关的蜘蛛,比如一些监测工具的蜘蛛,一些从事SEO的蜘蛛,等等。这些蜘蛛只会占用服务器资源,和我们的网站运营目标全无关系。你可以禁止他们抓取网站内容。

示例:

User-agent: SemrushBot Disallow: / User-agent: DotBot Disallow: /

说明下,上面内容即全面禁止了蜘蛛 SemrushBot 和 DotBot

恶意蜘蛛列表

SemrushBot,这是semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。

DotBot, 这是moz旗下的,作用是提供seo服务的蜘蛛,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽

AhrefsBot, 这是ahrefs旗下的蜘蛛,作用是提供seo服务,对我们没有任何用处,遵循robots协议。

MJ12bot,这是英国的一个搜索引擎蜘蛛,但是对中文站站点就没有用处了,遵循robots协议。

MauiBot,这个不太清楚是什么,但是有时候很疯狂,好在遵循robots协议。

MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

BLEXBot, 这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议

其它蜘蛛:

bots
Nimbostratus-Bot
crawler
Bot
Applebot
YandexBot
web spider
YisouSpider 据说这个最垃圾,不遵循robots协议,需直接封禁IP。

总结一下, Robots协议设置至少要考虑三点,允许或拒绝哪些蜘蛛,引导蜘蛛抓取哪些内容、拒绝蜘蛛抓取哪些内容。

如果你还有不清楚的,可以微信联系欧客易进一步咨询。见右上方。

此文由“快兔兔AI采集器”自动生成,目的为演示采集器效果,若侵权请及时联系删除。

原文链接:https://www.ok1e.com/wordpress/2992.html

更多内容