代码:https://github.com/yangbajing/crawler-service
使用Scala开发一个多线程爬虫,利用Akka库来管理多个爬虫任务的分散和聚合操作。同时使用scheduleOnce
来设置爬取任务在指定时间内完成。详细需求如下:
- 可同时从多个新闻源(搜索引擎)检索新闻
- 已爬取过的新闻存库,第二次访问时直接从库里读取
- 提供
duration
参数,调用方可设置调用超时。超时到,则Server返回已爬取新闻。且爬虫任务需继续进行,并完成存库
代码:https://github.com/yangbajing/crawler-service
使用Scala开发一个多线程爬虫,利用Akka库来管理多个爬虫任务的分散和聚合操作。同时使用scheduleOnce
来设置爬取任务在指定时间内完成。详细需求如下:
duration
参数,调用方可设置调用超时。超时到,则Server返回已爬取新闻。且爬虫任务需继续进行,并完成存库