wordpress手动采集插件Crawling附带教程

然后,解压压缩包,上传到wordpress插件目录。激活插件。

三、任务管理

一个任务可以理解为一个爬虫,在这里你可以配置多个任务,每个任务可以单独设置参数。

比如,这里我设置了三个任务,如图:

第一个任务是爬取“盾给网路”的全部内容,抓取间隔设置为-1表示只采集一次,不会重复执行。

第二个任务是爬取“盾给网路”的前三页,如果采集过的不会重复采集,只会抓取前三页的更新的内容。每隔24小时采集一次。

第三个任务是爬取“阳光电影网”(这是影片天堂的新网站)的首页的全部更新的影片,因为阳光影片所有的更新都在首页。每隔24小时采集一次。

每个任务单独设置的参数,如图:

下面是每位任务的设置:

1 任务名称:

每隔任务的别称,方便好记而已,没有其他作用。

2 入口网址:

每个任务爬虫开始的地址。这个网址通常是首页或则列表页。然后爬虫会从这个页面开始采集。

3 爬取间隔时间:

每隔任务(爬虫)运行的间隔时间。

4 列表页面url正则/内容页面url正则:

爬虫步入第一个网址(入口网址)后须要分辨什么是须要采集的内容页面。所以须要设置匹配的内容页面url正则表达式。

爬取还须要晓得怎样进行翻页,寻找更多的内容页面,所以须要设置列表页面url的正则表达式。

列表页面

内容页面

所以正则表达式如下:

列表页面url正则:\/page/[1-9]\d*$

内容页面url正则:\/[1-9]\d*.html$

如果只须要采集前三页更新的内容,只须要把列表页面的正则表达式改为\/page/[1-3]$。

配置这两个参数时可以打开《正则表达式在线测试》页面测试。

5 文章标题(xpath)/文章内容(xpath):

进入内容页面后,爬虫要选择抓取的内容,比如文章的标题和文章的正文。所以须要设置xpath来告诉爬虫。

例如:

打开一个页面,通过浏览器查看页面源代码,如图:

可以看见,文章的标题是收录在

这个元素中的元素中的。所以标题的xpath规则为://h1[@class=”mscctitle”]/a

同样,通过上图可以看到:内容是收录在

中的,所以内容的xpath规则为://div[@class=”content-text”]

配置完成可以打开《XPath在线测试》页面测试。

6 内容起始字符串/内容结束字符串:

一般的网站都会有广告,或者一些其他的东西混在内容上面,所以我们须要过滤掉那些内容,只保存我们须要的部份。而这部份无用的东西(广告、分享按键、标签等)大部分都是在文章的开头或则结束部份,并且内容是固定的。所以我们可以通过简单的字符串过滤掉。

例如《且听风吟》的整篇文章的内容部份开头就有一段广告,如上图。

通过《XPath在线测试》页面测试我们上一步配置的内容xpath规则,可以得到文章内容,如下图:

可以看见,真正的内容是从

之后开始的。

所以内容起始字符串设置为:

因为文章内容前面并没有多余的部份,所以前面不用过虑,内容结束字符串设置为空就可以了。

7 文章图片:

采集插件可以手动将文章内出现的图片保存到本地,默认按年月分文件夹保存,并会将图片的标签设置为文章的标题。如果不需要保存到本地可以选择“不做处理”。

8 文章分类:

选择要保存到的分类,和wordpress一样,可以选择多个分类。

       优采云采集器是一个根据用户提供的关键词,云端自动采集相关文章并发布到用户网站的网站采集器。它能够自动识别各种网页上的标题、正文等信息,不需要用户编写任何采集规则就可以实现全网采集。采集到内容后,会自动计算内容与所设定的关键词的相关度,只把相关的文章推送给用户。支持标题前缀、关键词自动加粗、插入固定链接、自动提取Tag标签、自动内链、自动配图、自动伪原创、内容过滤和替换、电话号码和网址清理、定时采集、百度主动提交等一系列SEO功能。用户只需设置好关键词和相关需求,就能实现全托管、零维护的网站内容更新。不限网站数量,不管是单个网站还是大批量站群,都可以非常方便的进行管理。

此文由“快兔兔AI采集器”自动生成,目的为演示采集器效果,若侵权请及时联系删除。

原文链接:https://www.ucaiyun.com/article/7036

更多内容