特色功能:AI训练介绍

快兔兔核心算法是基于深度学习技术训练出来的识别算法,我们已经预先训练了大量网页样本,通常情况下可以正确识别绝大部分的网页结构。

如果您在采集过程中遇到某些域名下的网页无法被正确识别和过滤,导致误识别和垃圾信息过多,则可以通过快兔兔提供的机器训练平台自己针对域名训练专门的算法。

1:首先在首页点击“AI训练”进入到学习平台

2:在这里列出了已经训练过的域名,您可以重新标注样本并且调整参数达到最佳的训练结果。点击“新增模型”,在弹出框中选择需要训练的域名。

3:请点击对应域名的”样本标注“,将会弹出采集到的网页,请至少标注30个正确的网页和30个错误的网页,建议越多越好。通过告诉机器哪些采集结果是正确的,哪些是错误的,如果样本量够大,则可以通过多层神经网络来进行推演。

标注过程可能枯燥乏味,但这是必不可少的。您可以通过快捷键加快标注过程:”删除键”表示识别错误,”回车键”表示识别正确。

4:样本数量达到最低要求后,可点击”训练“按钮,弹出的设置框中需要设置每批次要训练的文章和要训练的迭代次数。遗憾的事,这两个参数没有标准值,全凭经验填写,建议多试几个不同的参数,得到最后拟合度最优的训练曲线。

 

小提示:最优的模型应当是训练集和测试集的准确率曲线平滑向上,最终趋近于1

更多内容