我们从2011年坚守至今,只想做存粹的技术论坛。  由于网站在外面,点击附件后要很长世间才弹出下载,请耐心等待,勿重复点击不要用Edge和IE浏览器下载,否则提示不安全下载不了

 找回密码
 立即注册
搜索
查看: 673|回复: 2

高并发、分布式爬虫 Pholcus 0.8.5 发布

[复制链接]

该用户从未签到

142

主题

157

回帖

102

积分

二级逆天

积分
102

社区居民忠实会员社区劳模原创达人终身成就奖

QQ
发表于 2016-3-23 11:37:50 | 显示全部楼层 |阅读模式
高并发、分布式爬虫 Pholcus 0.8.5 发布
henrylee2cn    2小时前
Pholcus 0.8.5 发布,此版本优化多项功能(如新增cmd版服务端、客户端,细化历史记录粒度等)、修复多个bug,并减少诸多依赖包,为发布1.0稳定版做准备。

Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。

pholcus web 版
更新详情如下所示:

一、命令行相关功能升级

1. cmd界面版增加对服务端与客户端模式的支持;

2. 新增丰富的命令行参数,且优先级高于配置文件。

二、配置文件更新

1. 增加更多可配置项;

2. 重新规范代码,配置参数为优先级最低的默认信息。

三、Spider结构体调整

1. Keyword改为Keyin,相应操作界面中“自定义输入”改为“自定义配置”(多任务时应分别多包裹一层“<>”);

2. MaxPage字段改为Limit,相应操作界面中“最大页数”改为“采集上限”(默认限制url请求数);

3. 添加subName,用于区分多任务并发的情况;

4. 允许在规则的Root()中进行阻塞;

5. 优化动态规则加载的错误处理。

四、调度器与历史记录模块升级

1. 增强历史记录功能,历史记录与Spider实例一一对应,且与输出操作保持同步更新;

2. 修复调度器在32位系统下panic的bug。

五、输出模块优化

1. 修改mysql输出模块,支持多行批量插入,修改默认连接池容量为2048,提升输出速率与稳定性;

2. mgo的insert方法更新,内部增加分批插入控制,默认为5000条,提升写入数据库的稳定性;

3. 修复连接池捕获panic的bug。

六、其他

1. 解决某些规则的代码片段在手动终止任务后依旧默默运行的问题,减少资源消耗;

2. 解决大量任务长时间运行后手动终止操作耗时太长的问题,加快终止操作响应速度;

3. 调整运行时目录文件;

4. 将大部分依赖包合并到项目中;

5. 修复一些bug。

更多关于: Pholcus 的详细信息

相关资讯
Pholcus 爬虫 v0.8.2,性能提升 20% 以上
Pholcus 爬虫 v0.8.0,支持 HTML 风格动态规则
Pholcus 0.7.5 发布,Go 爬虫软件
Walle 0.8.5 发布,上线部署系统瓦力
Pholcus 0.7.4 发布,Go 爬虫软件
Pholcus 0.7.3 发布,Go 爬虫软件
Pholcus 0.6.1 发布,Go 爬虫软件
Pholcus 0.6.0 发布,Go 爬虫软件
Pholcus 0.5.2 发布,Go 爬虫软件
Pholcus 0.5.1 发布,Go 爬虫软件
回复

使用道具 举报

该用户从未签到

77

主题

4432

回帖

4091

积分

二级逆天

积分
4091

终身成就奖社区居民忠实会员社区劳模最爱沙发原创达人优秀斑竹奖

QQ
发表于 2016-3-23 12:22:01 | 显示全部楼层
回复

使用道具 举报

该用户从未签到

3

主题

3952

回帖

4658

积分

二级逆天

积分
4658

社区居民忠实会员最爱沙发终身成就奖优秀斑竹奖

QQ
发表于 2016-3-23 13:39:00 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

论坛开启做任务可以
额外奖励金币快速赚
积分升级了


Copyright ©2011-2024 NTpcb.com All Right Reserved.  Powered by Discuz! (NTpcb)

本站信息均由会员发表,不代表NTpcb立场,如侵犯了您的权利请发帖投诉

平平安安
TOP
快速回复 返回顶部 返回列表