公众号采集软件

《不用写代码的爬虫课》发布后,我经常被用户询问,web scraper 能不能抓公众号标题,于是,我研究出了 ——

后来,又有用户问,web scraper 能不能抓取公众号的文章内容,我当时觉得肯定不行,因为电脑上公众号的文章链接不是常规的 a 标签,我说抓不了。随着对 web scraper 的研究,我发现了 Element attribute selector,于是找到了解决方法,就有了 ——

再后来,又有用户问 ——

  • 可不可以抓取公众号文章导出 PDF?
  • 可不可以抓取知乎文章导出 PDF?
  • 可不可以抓取公众号阅读、点赞数?
  • 可不可以统计出文章的高频词?
  • 可不可以……

《不用写代码的爬虫课》使用的是 web scraper,它擅长抓取网页端的文字数据,保存到 excel 里面。如果还需要排版:加粗,标题、图片等,那 web scraper 确实实现不了,这种高级功能需要写代码,才能实现。

我已经很久不写代码了,只能尴尬的说 —— 做不了。

这个事情也就一直搁置,期间我在 github 上也找过一些库,拼凑拼凑也实现了一些功能,但是过程太复杂,需要安装 python,安装第三方库,自己运行,对于不懂技术的朋友,操作起来不够友好。

自从做了《不用写代码的爬虫课》后,我做其他事情,都会拿这个课程作为标准,最基本的 2 点 ——

由于这点,我现在做产品,要么是可以线上运行,不受操作系统限制;要么是研究 2 种方案,让 mac 和 windows 的用户都能使用。

因为做过技术,我知道如果单纯为了使用一个工具,专门学编程。那么一段时间不用,肯定忘得一干二净。从成本收益角度考虑,对用户不友好。他花费的时间精力,大于这个功能实现的收益。

因此,如果做的产品使用时,对用户的友好度不如 web scraper,我就会觉得太烂,没脸拿出来。

有段时间,我在做知识星球的网站,就整天搜索一些 WordPress 相关的文章,看到一个 WordPress 插件,可以将公众号的文章同步到网站上。

我就想,要把公众号文章同步都网站上,需要先把文章抓下来,这个开发者肯定也研究过这个,于是就加了他微信,果然,插件是和一个软件搭配使用的,这个软件的功能,就是之前 web scraper 解决不了的问题。

更惊喜的是,这个软件支持 windows 和 mac 2 种操作系统,而且功能全部封装好,就和使用 QQ 一样,不需要懂一些技术知识。

后来,我就经常和这个开发者聊天,他的水平很厉害,而且属于全栈类型,擅长敏捷开发。我有时给软件提一些改进需求,他很快就能更新完成。

昨天,我翻知乎的时候,看到一篇文章,发现这个作者很厉害,就想着把他的文章全部抓下来,方便查看。

我想到软件新开发的一个功能 —— 网页转 PDF,这是我之前给开发者提的需求,于是就试了一下,没想到非常好用,一篇文章一个 PDF,样式和网页一模一样。

这个功能和 web scraper 结合到一起,就是绝配哇!

web scraper 可以轻批量抓取到所有文章链接,然后复制到这个软件里,批量转换成 PDF。

也就是,如果你想查看某个人的知乎所有文章,可以先用 web scraper 将所有文章链接抓取下来,然后用软件转换成 PDF,打印出来,方便查看。

同样的,这种方式也可以用在头条号,简书等等,只要是能在网页上显示的信息,都可以用这个功能。

这个软件,以前我只在知识星球和朋友圈宣传过,因为觉得功能不够成熟,昨天使用了网页转换 PDF 功能后,我觉得,可以放心的向大家介绍了。

下面我正式介绍一下软件功能:

将公众号所有文章,全部导出为 PDF 格式,可以打印出来,方便查看。

PDF 样式例子,大家可以查看:

样例:

样例:

由于不同网站加载方式不同,不保证全部网站都能导出成功,但后续会不断更新。

可以统计出一篇内容,用的最多的词语,用的最少的词语

没有。

(1)抓历史文章很快,但是导出比较慢,一篇文章 5 – 10 秒。

(2)抓阅读点赞数,一篇文章 5 – 10 秒。

可以根据文章数大概计算一下。

一天抓 5 个公众号就可以,如果抓的多了,会被禁止访问,隔天恢复正常。

软件代码已经封装,有很好的界面。

当然,操作过程不可能是完全自动化,这块不同产品都相同。需要在手机配置代理,不过这也很简单,我们写好了详细的教程,之前很多不是技术背景的朋友,都能轻松完成。

不可以,每个软件会有一个专属码,安装后需要激活,激活后会绑定到安装的电脑上,所以请慎重选择电脑。

重装系统不会影响,可以继续使用。

三胖哥之前分享过,互联网做产品,如何打造自己的核心竞争力,主要是 3 点:

1、人无我有

提供公众号抓取的产品,市面上有好几家,所以这点,软件优势不大。

2、人有我强

如果大家都提供这个功能,但是我的产品做的比他强,那这就是我的优势。

这个软件有 3 个优势:
1、同时支持 mac 和 windows 系统
2、不需要技术背景,普通人也能轻松使用
3、后期视情况还会更新新功能

这点,几乎已经打败所有人了。

3、人强我贱

「贱」的意思是,如果产品不相上下,那就比别人便宜。

市面上类似产品的价格比较:

  • 公众号 PDF 导出的服务,一般是 30 – 40 元一个公众号。

  • 抓取点赞评论,新榜的回采功能。拿 「caoz 的梦呓」举例,285 元一个公众号。

我们这个软件,不是年费制,不是按次数收费,一次收费,终身有效。

如果您感兴趣,可以联系我,微信 mingbai62,直接转账就行。

此文由“快兔兔AI采集器”自动生成,目的为演示采集器效果,若侵权请及时联系删除。

原文链接:https://www.jianshu.com/p/37b7d4e60c21

更多内容