添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。

这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora v0.5,支持的底层存储为:

  • Apache Hadoop 1.0.1 & 2.4.0

  • Apache Cassandra 2.0.2

  • Apache HBase 0.94.14

  • Apache Accumulo 1.5.1

  • MongoDB 2.12.2

  • Apache Solr 4.8.1

  • Apache Avro 1.7.6

  • 同时请注意,Gora对SQL的支持已经过时了。

    更多详细内容请看 更新日志 下载地址 Nutch官网

    Nutch的创始人是 Doug Cutting ,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

    Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

    在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。

    大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。

    Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?

    展开阅读全文

    本站新闻禁止未经授权转载,违者依法追究相关法律责任。授权请联系: oscbianji#oschina.cn

    本文标题: Apache Nutch v2.3 发布,Java实现的网络爬虫

    本文地址: https://www.oschina.net/news/59287/apache-nutch-2-3

    MHVIC915R2 746-960 MHz, 15 W, 27 V Single N-CDMA, GSM/GSM EDGE, RF LDMOS Wideband Integrated Powe... MRF19085LR3 1930-1990 MHz, 90 W, 26 V Lateral N-Channel RF Power MOSFET [转载]中移在线携手华为联合打造云客服全栈自主创新样板点,输出客服能力,服务千行百业 Real-time Edge v2.5 Yocto Project User Guide ZadigX 与 Jira 双向互联,产品到研发自动化全打通了 线下培训 | 瑞萨电子RA MCU CAN/CAN FD技术培训 BLDC Motor with Hall Sensors and Speed Closed Loop, driven by eTPU on MPC5554 MRF19090SR3 1930-1990 MHz, 90 W, 26 V Lateral N-Channel RF Power MOSFET 3.2.0 版本预告!Apache DolphinScheduler API 增强相关功能 实战!12C-19cXTTS迁移过程_数据库量6T_停机时间1小时 MMRF1020-04NR3, MMRF1020-04GNR3 720-960 MHz, 100 W Avg., 48 V RF Power LDMOS Transistors - Data S... Single-chip 16-bit/32-bit micro; 512 kB flash, Ethernet, CAN, ISP/IAP, USB 2.0 device/host/OTG, e... Inpaint Anything:一键进行多种图像修补 Spring Boot业务代码中使用@Transactional事务失效踩坑点总结 MRF21085LR3, MRF21085LSR3 2110-2170 MHz, 90 W, 28 V Lateral N-Channel RF Power MOSFETs - Archived 墨天轮7月行业分析报告已发布,聚焦图数据库、首发【全球图数据库产业图谱】 TN262, Using the MemoryBanker in S12(X) projects - Application Notes 如何使用rosvrrp虚拟接口做pppoe多拨的图文教程 解析Spring内置作用域及其在实践中的应用 就在本周六!全国巡回最后一站——南京站RT-Thread线下入门培训! Falco操作系统安全威胁监测利器 铜锁 SM2 算法性能优化实践(一)|综述 手把手教你玩转 PieCloudDB 全新外部连接工具 PieProxy plastic thermal enhanced thin quad flat package; 100 leads; exposed diepad 技术峰会|58同城秦瑞斌受邀参加 DataFunSummit2023智能风控峰会 ARCHIVED - AFT09S282NR3 720-960 MHz, 80 W AVG., 28 V Airfast ® RF Power LDMOS Transisto... ARCHIVED - A2I25D012NR1, A2I25D012GNR1 2300-2690 MHz, 2.2 W Avg., 28 V Airfast ® RF LDM... AnalyticDB(ADB)+LLM:构建AIGC时代下企业专属Chatbot MHL9318N 3.0 W, 17.5 dB, 860-900 MHz RF Linear LDMOS Amplifier - Archived 【新书上架】RT-Thread第10本相关书籍!物联网实时操作系统原理与实战 生成式AI赋能百度业务:文心一言亮相 plastic thermal enhanced thin shrink small outline package; 38 leads; body with 4.4 mm; lead pitc... AI Image Codec技术落地实践 ORTC与AI相互成就之道 对话网心科技李浩| 携“边缘云+AI”之势,深入拓展算力业务场景落地 跑得更快!华为云GaussDB以出色的性能守护“ERP的心脏” 音视频技术开发周刊 | 303 技术峰会|58同城詹坤林受邀参加WOT全球技术创新大会 数智驱动 百业共荣!亚信科技精彩亮相2023 MWC上海展 【限时活动】支付宝商家批量转账0费率活动,仅剩2天! Monibuca 中的内存复用 如何应对 MySQL 5.7 停服?这场直播告诉您答案! TEA1721 non-isolated universal mains buck and buck/boost converter demo board ARCHIVED - MRF8HP21130HR3, MRF8HP21130HSR3 2110-2170 MHz, 28 W Avg., 28 V W-CDMA, LTE Lateral N-C... MHVIC2114R2 2100 MHz, 27 V, 23 dBm, Single W-CDMA RF LDMOS Wideband Integrated Power Amplifier - ... 如何用IoT边缘连接器实现云端应用控制PLC? ​AVS3支持下的8K内容生产和传输应用实践 摩尔定律放缓后,AMD应如何引领自适应的风潮? 安全日报(2023.06.25) 安全日报(2023.07.27) 生成式AI:重新定义生产力与创造力的新范式 码力全开!请查收HDC.Together 2023亮点日程 详解驱动开发中内核PE结构VA与FOA转换 设计元服务 如何使用ONLYOFFICE+ffmpeg来给视频文件打马赛克 数据库架构是否该随着公司估值一起变化? MRF6S27050HR3, MRF6S27050HSR3 2500-2700 MHz, 7 W Avg., 28 V Single W-CDMA Lateral N-Channel RF Po... 安全日报(2023.06.08) 下面关于union和union all说法正确的是? 使用索引带来的影响有? Low power smart card interface 数据库中用户删除不掉总是报错,依赖如何处理干净? 华为云MetaStudio多模态数字人进展及挑战介绍 ARCHIVED - AFT21S220W02SR3, AFT21S220W02GSR3 2110-2170 MHz, 50 W Avg., 28 V Airfast ® R... 下周六!上海站RT-Thread线下入门培训! HV start-up flyback controller with integrated MOSFET for 11 W applications, 1270 Hz burst frequency Low-Cost External Remote Keyless Entry (RKE) Low Noise Amplifier for 315 / 433 / 868 MHz Automoti... Smartbi身份认证绕过漏洞通告 ROS双电信双线制作笔记 大型 3D 互动项目开发和优化实践 华为发布数字资产继承功能 MySQL:这个星球最成功的数据库 MRF5S19090L, MRF5S19090LR3, MRF5S19090LSR3 1990 MHz, 18 W Avg., 2 x N-CDMA, 28 V Lateral N-Channe... MMRF1007HR5, MMRF1007HSR5 965-1215 MHz, 1000 W, 50 V Lateral N-Channel Broadband RF Power MOSFETs... MRF7S38040HR3, MRF7S38040HSR3 3400-3600 MHz, 8 W Avg., 30 V, WiMAX Lateral N-Channel RF Power MOS... Apache RocketMQ EventBridge:构建下一代事件驱动引擎 技术与业务同行:做业务的技术人 HStore表全了解:实时入库与高效查询利器 GreptimeCloud 公测:可扩展的托管式 Prometheus 云上解决方案 我用 AI 为 3800 年前的爱情画了套漫画