robots txt协议(不遵守robots协议)

robots txt协议(不遵守robots协议)插图

Robots协议(也称为爬虫协议、机器人协议等。)的全称是“Robots Exclusion Protocol”。通过robots协议，网站告诉搜索引擎哪些页面可以被抓取，哪些不可以。

搜索引擎机器人在访问一个网站时，会先寻找网站的根目录下是否有robots.txt文件。如果有这个文件，它会根据文件的内容来确定包含的范围。如果没有，默认情况下，它将访问并包含所有页面。另外，当搜索蜘蛛发现robots.txt文件不存在时，会在服务器上生成404错误日志，从而增加服务器的负担。所以，给站点添加一个robots.txt文件还是很重要的。

了解了Robots协议的作用之后，我们来谈谈如何在WordPress站点中编写robots.txt文件。

默认情况下，WordPress站点在浏览器中输入:http://your domain name/robots . txt，它会显示以下内容:

user-agent:* disallow:/WP-admin/allow:/WP-admin/admin-Ajax . PHP这是WordPress自动生成的，这意味着搜索引擎被告知不要抓取守护程序文件。

但这远远不够。我们需要新建一个robots.txt文件，然后复制以下内容保存。

用户代理:* Disallow:/WP-admin/Disallow:/WP-content/Disallow:/WP-includes/Disallow:/*/comment-page-* Disallow:/*？reply tocom = * Disallow:/category/*/page/Disallow:/tag/*/page/Disallow:/*/trackback Disallow:/feed Disallow:/*/feed Disallow:/comments/feed Disallow:/？s=*Disallow: /*/？s=*\Disallow: /**不允许:/attachment/Select CodeCopy

保存后直接上传到你网站的根目录就可以了。可以访问http://your domain name/robots . txt查看是否上传成功。

那么以上文件中的内容是什么意思呢？普及小知识。

1.Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

用于告诉搜索引擎不要抓取后台程序文件的页面。

2，不允许:/*/评论-页面-*和不允许:/*？回复通讯=*

禁止搜索引擎抓取评论分页等相关链接。

3.不允许:/category/*/page/和不允许:/tag/*/page/

禁止搜索引擎抓取收录类别和标签的分页。

4、不允许:/*/trackback

禁止搜索引擎抓取和收集trackback等垃圾信息。

5.不允许:/feed、不允许:/*/feed和不允许:/comments/feed

搜索引擎是禁止抓取和收录feed链接的。feed仅用于订阅本站，与搜索引擎无关。

6、不允许:/？S=* and Disallow: /*/？s=*\

禁止搜索引擎抓取该网站的搜索结果。

7、不允许:/*？*

禁止搜索和抓取动态页面。

8、不允许:/附件/

禁止搜索引擎抓取附件页面，如无意义的图片附件页面。

这个文档的写法有很多种，就不一一列举了。我这个完全够了。希望能对你的站点seo有所帮助。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。

作者：美站资讯，如若转载，请注明出处：https://www.meizw.com/n/115093.html

robots txt协议(不遵守robots协议)

相关推荐

发表回复