我们从2011年坚守至今,只想做存粹的技术论坛。  由于网站在外面,点击附件后要很长世间才弹出下载,请耐心等待,勿重复点击不要用Edge和IE浏览器下载,否则提示不安全下载不了

 找回密码
 立即注册
搜索
查看: 519|回复: 0

Pholcus爬v0.8.2,性能提升20%以上

[复制链接]

该用户从未签到

139

主题

157

回帖

102

积分

二级逆天

积分
102

社区居民忠实会员社区劳模原创达人终身成就奖

QQ
发表于 2016-3-4 08:01:22 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×
Pholcus 爬虫 v0.8.2,性能提升 20% 以上
henrylee2cn    昨天
Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。



V0.8.0版本更新如下:



移除Response;

重构Context,同时增加Context.GetCookie()方法;

重构mgo与mysql输出模块,优化连接池,增加异常重连函数,提高输出性能与稳定性;

优化调度器中sdl.Push()方法,降低内存占用;

修复不支持freebsd系统的bug;

规范全局代码;

规范日志打印格式;

兼容 go1.6 版本;

本版本通过大量代码重构与优化,减少约30%的堆栈数量。

Pholcus特点:

Pholcus(幽灵蛛)以高效率,高灵活性和人性化设计为开发的指导思想;

支持单机、服务端、客户端三种运行模式,即支持分布式布局,适用于各种业务需要;

支持Web、GUI、命令行三种操作界面,适用于各种运行环境;

支持mysql/mongodb/csv/excel等多种输出方式,且可以轻松添加更多输出方式;

采用surfer高并发下载器,支持 GET/POST/HEAD 方法及 http/https 协议,同时支持固定UserAgent自动保存cookie与随机大量UserAgent禁用cookie两种模式,高度模拟浏览器行为,可实现模拟登录等功能;

服务器/客户端模式采用teleport高并发socketAPI框架,全双工长连接通信,内部数据传输格式为JSON;

对采集规则进行了精心设计,支持静态编译与动态JS两种规则,灵活简单且有大量Demo,写规则就是这么轻松;

支持横纵向两种抓取模式,并且支持任务暂停、取消等操作。





更多关于: Pholcus 的详细信息

相关资讯
KBEngine v0.8.2 发布,分布式游戏服务端引擎
Pholcus 爬虫 v0.8.0,支持 HTML 风格动态规则
Pholcus 0.7.5 发布,Go 爬虫软件
Pholcus 0.7.4 发布,Go 爬虫软件
Pholcus 0.7.3 发布,Go 爬虫软件
Pholcus 0.6.1 发布,Go 爬虫软件
Pholcus 0.6.0 发布,Go 爬虫软件
Pholcus 0.5.2 发布,Go 爬虫软件
Pholcus 0.5.1 发布,Go 爬虫软件
Pholcus 0.5.0 发布,Go 爬虫软件
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

每日签到,有金币领取。


Copyright ©2011-2024 NTpcb.com All Right Reserved.  Powered by Discuz! (NTpcb)

本站信息均由会员发表,不代表NTpcb立场,如侵犯了您的权利请发帖投诉

( 闽ICP备2024076463号-1 ) 论坛技术支持QQ群171867948 ,论坛问题,充值问题请联系QQ1308068381

平平安安
TOP
快速回复 返回顶部 返回列表