Apache Hadoop - The mini wiki

Apache Hadoop 编辑

Apache Hadoop是一款支持数据密集型分布式计算应用程序并以Apache许可证发布的开源软件框架。它支持在商用硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google档案系统的论文自行实作而成。所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理。

相关

Apache Sqoop是用于在关系型数据库和Apache Hadoop之间传输数据的开源工具。该项目始于2009年，在2021年6月结束，并被移至Apache Attic。

XGBoost 是一个开源软件函式库，它为 C++、Java、Python、
R语言、和Julia提供了一个梯度提升技术框架，适用于Linux、Microsoft Windows、和
MacOS。根据项目的描述，它的目的在于提供一个"可扩展、可移植和分布式梯度提升库"。 XGBoost除了可以在单一机器上运行，也支持运行在分布式框架Apache Hadoop、Apache Spark、Apache Flink。
近几年，由于这个算法受到许多在机器学习竞赛中获奖团队的青睐，因而受到了广泛的欢迎和关注。

Hortonworks是一家位于美国加州帕拉奥图的商业计算机软件公司，专注于Apache Hadoop的开发和支持。Apache Hadoop是一种框架，能分布式处理跨计算机集群的海量数据。

Cloudera是一家位于美国的软件公司，向企业客户提供基于Apache Hadoop的软件、支持、服务以及培训。

Apache Spark是一个开源丛集运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Apache Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中，Spark使用了内存内运算技术，能在资料尚未写入硬盘时即在内存内分析运算。Spark在内存内执行程式的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是执行程式于硬盘时，Spark也能快上10倍速度。Spark允许用户将资料加载至丛集内存，并多次对其进行查询，非常适合用于机器学习算法。

Pig是一个基于Apache Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口，使用者可以透过Python或者JavaScript编写Java，之后再重新转写。

MapR是一所美国企业管理软件公司、全球三大Hadoop开源大数据软件的提供商之一，总部位于美国加州圣何塞市，主要参与大数据的安全优化与开发、销售Apache Hadoop的衍生软件。MapR和Apache Hadoop一起参加过Apache HBase、Apache Hive、Apache ZooKeeper等项目的研发。MAPR曾被亚马逊云服务选择为亚马逊公司弹性云EC2的升级版本。MapR称，目前为止该公司的付费认证客户总数已达500家。

archive.today又称archive.is，是一个私人资助的网页存档网站，资料中心位于欧洲法国的北部-加来海峡。这个网站典藏档案馆使用Apache Hadoop与Apache Accumulo软件。它可以一次取回一个类似于WebCite的小于50MB的页面，并能收录Google地图与Twitter。