[功能介绍] 使用自定义提取规则精准采集

快兔兔AI采集器在大部分情况下,都可以通过内置算法正确的提取到网页中包含的文章标题和正文,因此不建议开启自定义规则采集功能。如果有些要采集的网页文章过短,或者无法正确识别的情况下,你可以采用自定义css选择器来定义提取规则。  

本文将介绍自定义提取规则的使用方法,强烈建议你先了解一下什么是css选择器。

创建爬虫任务,打开提取规则功能,填写标题和正文的css选择器。开启此功能后,爬虫会优先根据css选择器查找内容,如果提取到则保存文章,提取不到则继续使用内置算法尝试重新提取。

请先打开chrome或者其他浏览器,按F12进入开发者模式

1:点击”选择“按钮

2:在页面中点击要采集的内容区域

3:找到要被提取的网页原始代码

4:右键要采集的代码

5:弹出菜单中选择”复制selector“

6:切换到”快兔兔AI采集器“任务创建界面,把复制的内容黏贴到对应文本框中

7:保存并运行爬虫,爬虫会根据设定优先提取自定义的规则中包含的内容。

注意:此功能请慎用,由于很多大型网站可能会包含多种不同的网页结构,此功能可能导致提取到不正确的内容。

更多内容