TiebaKeywordsSpider

贴吧关键词爬虫

异步队列爬虫
爬取单层楼后会根据非中文字符进行分割，一个分割块内的多个关键词仅统计一次

配置

module.exports = {
    kw: ['湖南商学院'], // 可以一次性爬多个贴吧
    save_path: '', // 文件输出路径
    pMaxPage: 1, // 单个贴子最大翻页数
    kwMaxPage: 1, // 如果查非大型贴吧最好仅爬1页，不然可能会因为到了最后一页有重复爬取的可能性
    requestDelay: 500, // 请求延时，每两个请求之间的延时，以实际带宽来定大小
    timeout: 3000, // 超时时间，以防出现忙等待的情况
}

安装

npm install

运行

node spider

也可以通过控制台传入参数，所有参数均可选，没有传入的参数默认使用配置文件的参数

node spider kw 李毅 timeout 1000 save_path 李毅.json

不过指令传参数的话仅允许传一个贴吧

运行效果

可能等待时间会非常久

crontab

可以通过定时任务来执行指令爬贴吧，输出文件到站点的静态文件的目录下

值得注意的是node指令要使用绝对路径，不然可能会报无该指令的错误

TiebaKeywordsSpider

贴吧关键词爬虫

配置

安装

运行

运行效果

crontab

Readme

Keywords

Package Sidebar

Install

Weekly Downloads

Version

License

Last publish

Collaborators

TiebaKeywordsSpider

贴吧关键词爬虫

配置

安装

运行

运行效果

crontab

Readme

Keywords

Package Sidebar

Install

DownloadsWeekly Downloads

Version

License

Last publish

Collaborators

Weekly Downloads