一款开源的分布式爬虫管理平台，支持多种语言和框架

Crawlab是一款基于 Golang 的分布式爬虫管理平台，支持 Python、NodeJS、Go、Java、PHP 等多种编程语言以及多种爬虫框架。

1谁适合使用 Crawlab?

网路爬虫工程师： 通过集成爬虫程序到 Crawlab，网路爬虫工程师可以聚焦于爬虫的核心解析逻辑，从而避免浪费过多时间在开发通用模块上，例如任务队列、存储、日志、消息通知等。
运维工程师： Crawlab 对于运维工程师来说最大的好处是部署便利（对于爬虫程序和 Crawlab 本身）。Crawlab 支持 Docker 或 Kubernetes 一键安装。
数据分析师： 数据分析师如果能写代码（例如 Python），则可以开发爬虫程序（例如 Scrapy）然后上传到 Crawlab，然后就可以把所有脏活累活交给 Crawlab，它能够自动抓取数据。
其他： 准确的说，任何人都能够享受 Crawlab 自动化带来的便利。虽然 Crawlab 尤其擅长执行网络爬虫任务，但它不仅限于此，它能够被用来运行其他类型的任务，例如数据处理和自动化。

请打开命令行并执行下列命令。请保证已经提前安装了 docker-compose。

#引入保存结果方法fromcrawlabimportsave_item#这是一个结果，需要为dict类型result={'name':'crawlab'}#调用保存结果方法save_item(result)

然后，启动爬虫，运行完成之后，就应该能看到抓取结果出现在「任务详情 -> 数据」里。

爬虫任务实际上是通过 shell 命令执行的。任务 ID (Task ID) 作为环境变量 CRAWLAB_TASK_ID 被传入爬虫任务进程中，从而抓取的数据可以跟任务管理。

现在已经有一些爬虫管理框架了，因此为啥还要用 Crawlab？

因为很多现有当平台都依赖于 Scrapyd，限制了爬虫的编程语言以及框架，爬虫工程师只能用 scrapy 和 python。当然，scrapy 是非常优秀的爬虫框架，但是它不能做一切事情。

Crawlab 使用起来很方便，也很通用，可以适用于几乎任何主流语言和框架。它还有一个精美的前端界面，让用户可以方便的管理和运行爬虫。

开源地址：

https://github.com/crawlab-team/crawlab

后端专属技术群

构建高质量的技术交流社群，欢迎从事编程开发、技术招聘HR进群，也欢迎大家分享自己公司的内推信息，相互帮助，一起进步！

文明发言，以交流技术、职位内推、行业探讨为主

广告人士勿入，切勿轻信私聊，防止被骗

加我好友，拉你进群

本篇文章来源于微信公众号: Java笔记虾

微信扫描下方的二维码阅读本文