本文共 668 字,大约阅读时间需要 2 分钟。
激发最好的开源
现在最好的即时通讯软件是开源的即时通讯开源项目。
当然,最近在GitHub上比较的Startalk啊,我最近重新选择了模型,程序员兄弟找到了这个好资源。 它似乎采用了一种比较流行的分散设计,开源代码也非常完整。 网产哪里,推荐你看网页链接
现有的开源IM框架
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、Scrapy、WebCollector或其他? 根据我的经验,我们基本上可以把爬行动物分为三类:1、 分布爬行动物:荷兰。服务端 开源 即时通讯。
2、 JAVA单履带者:Crawler4j、Web Magic、Web Collector:
im即时通讯开源:介绍一个最好的最好的开源即时通讯软件
3、非JAVA单履带者:Scrapy
第一类:分布式爬虫
爬虫使用分布式,主要解决两个问题:
1)大规模URL管理im即时通讯源码。
2)网络速度
现在更流行的分布式爬虫是Apache Nutch。但对于大多数用户来说,Nutch是这些爬行动物中最糟糕的选择,原因如下:
Nutch是一种专为搜索引擎设计的爬行动物,大多数用户需要爬行动物来进行精确的数据爬行。 Nutch三分之二的流程是用于搜索引擎的。 对精细提取没有多大意义。 i。,使用Nutch进行数据提取将浪费大量的时间在不必要的计算上。 更重要的是,如果你试图重新开发Nutch,使其为精细化的业务工作,你基本上是在打破Nutch的框架,改变Nutch超出识别范围,并有能力修改Nutch,你真的不如自己重写分布式爬虫框架好。 。
转载地址:http://hgrzs.baihongyu.com/