robots txt协议(不遵守robots协议)

Robots协议(也称为爬虫协议、机器人协议等。)的全称是“Robots Exclusion Protocol”。通过robots协议,网站告诉搜索引擎哪些页面

robots txt协议(不遵守robots协议)插图

Robots协议(也称为爬虫协议、机器人协议等。)的全称是“Robots Exclusion Protocol”。通过robots协议,网站告诉搜索引擎哪些页面可以被抓取,哪些不可以。

搜索引擎机器人在访问一个网站时,会先寻找网站的根目录下是否有robots.txt文件。如果有这个文件,它会根据文件的内容来确定包含的范围。如果没有,默认情况下,它将访问并包含所有页面。另外,当搜索蜘蛛发现robots.txt文件不存在时,会在服务器上生成404错误日志,从而增加服务器的负担。所以,给站点添加一个robots.txt文件还是很重要的。

了解了Robots协议的作用之后,我们来谈谈如何在WordPress站点中编写robots.txt文件。

默认情况下,WordPress站点在浏览器中输入:http://your domain name/robots . txt,它会显示以下内容:

user-agent:* disallow:/WP-admin/allow:/WP-admin/admin-Ajax . PHP这是WordPress自动生成的,这意味着搜索引擎被告知不要抓取守护程序文件。

但这远远不够。我们需要新建一个robots.txt文件,然后复制以下内容保存。

用户代理:* Disallow:/WP-admin/Disallow:/WP-content/Disallow:/WP-includes/Disallow:/*/comment-page-* Disallow:/*?reply tocom = * Disallow:/category/*/page/Disallow:/tag/*/page/Disallow:/*/trackback Disallow:/feed Disallow:/*/feed Disallow:/comments/feed Disallow:/?s=*Disallow: /*/?s=*\Disallow: /**不允许:/attachment/Select CodeCopy

保存后直接上传到你网站的根目录就可以了。可以访问http://your domain name/robots . txt查看是否上传成功。

那么以上文件中的内容是什么意思呢?普及小知识。

1.Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

用于告诉搜索引擎不要抓取后台程序文件的页面。

2,不允许:/*/评论-页面-*和不允许:/*?回复通讯=*

禁止搜索引擎抓取评论分页等相关链接。

3.不允许:/category/*/page/和不允许:/tag/*/page/

禁止搜索引擎抓取收录类别和标签的分页。

4、不允许:/*/trackback

禁止搜索引擎抓取和收集trackback等垃圾信息。

5.不允许:/feed、不允许:/*/feed和不允许:/comments/feed

搜索引擎是禁止抓取和收录feed链接的。feed仅用于订阅本站,与搜索引擎无关。

6、不允许:/?S=* and Disallow: /*/?s=*\

禁止搜索引擎抓取该网站的搜索结果。

7、不允许:/*?*

禁止搜索和抓取动态页面。

8、不允许:/附件/

禁止搜索引擎抓取附件页面,如无意义的图片附件页面。

这个文档的写法有很多种,就不一一列举了。我这个完全够了。希望能对你的站点seo有所帮助。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/115093.html

发表回复

登录后才能评论