大师兄 wordpress反爬-内容采集和复制抄袭

到现在为止,本站的博客内容仍然被爬取,整理了一些特征:

  • 一天抓取一次,白天不会爬取,凌晨会爬取一次,因为每次文章被爬取,都是凌晨之后
  • 像素级爬取,可以判定不是手动复制,因为连带脚本也被一起爬取了,自制的插件也被静态缓存到对方网站
  • 小概率对方没有太关注盗版网站(可能盗版太多了,自动化的),用一张图片弄过版权声明,很显然,对方没有什么动作,到是推酷把那篇有声明的文章给人工删除了

看了下发现盗版网站到现在的时间,已经过去6天了

采用了以下操作

  • nginx
  • wordpress/.htaccess
  • wordpress/index.php
  • wordpress/function.php
  • wordpress/wordfence插件
  • wordpress/add_filter(‘the_content’, ‘add_after_post_content’)钩子函数-内容过滤;
  • wordpress/html插入script脚本
  • ……

期间还收到了dos攻击,导致网站瘫痪了一个晚上,加上了防火墙等各种防护措施,才恢复正常运行

不论有没有什么反爬的方法,折腾这么久没见到什么效果

最终的核心是不让内容被别的网站盗取,不让搜索引擎收录别人网站,不让读者以为别人原创

如果反爬反不了,那就让他爬

每次手动往单个文章插入脚本,太耗费时间

制作了一个编辑器插件也显得比较耗时,而且对文章还是侵入式的,不太友好

本篇文章使用钩子函数全局自动插入脚本,看看明天凌晨对盗版网站的操作是否会生效

如果不生效,就得继续找方法

END.

此文由“快兔兔AI采集器”自动生成,目的为演示采集器效果,若侵权请及时联系删除。

原文链接:http://dsx2016.com/?p=1384

更多内容