❤

npm

crawlercore

1.5.51 • Public • Published 6 years ago

crawlercore

crawlercore是一套强大的爬虫库，有以下特点：

组件式，可配置出各种类型的爬虫。
使用async/await语法，上层编码更人性化。
自动的编码处理（uft8、gbk）。
支持headless chrome。
可配置的持久化模块。
强大的爬虫管理器，会自动重试，支持分布式管理。
强大的数据分析模块，除了常用的html选择器外，还有js虚拟机，方便直接爬取js数据。

安装说明

npm i crawlercore --save

即可安装，具体使用方法，见 https://github.com/zhs007/crawler-js 项目。

更新日志

1.0 - 正式发布，基本功能正常。
1.1 - 增加redis缓存集中管理缓存，初步支持分布式，支持各种重启多开。
1.2 - 对headless chrome有进一步支持，提供了一些实际例子，譬如js断点取瞬时内存数据等。
1.3 - 和jarvis-task项目结合，支持更复杂的上层任务调度。
1.5 - 调整架构，去掉cache管理，任务调度统一交给jarvis-task。

Readme

Keywords

crawler

Package Sidebar

Install

npm i crawlercore

Repository

github.com/zhs007/node-crawler

Homepage

github.com/zhs007/node-crawler#readme

Weekly Downloads

1

Version

1.5.51

License

Apache 2.0

Last publish

6 years ago

Collaborators

Try on RunKit

Report malware