MapReduce - The mini wiki

Apache Hadoop是一款支持数据密集型分布式计算应用程序并以Apache许可证发布的开源软件框架。它支持在商用硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google档案系统的论文自行实作而成。所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理。

BigQuery是一个表现层状态转换的Web服务，可以对与Google Storage结合使用的大型数据集进行交互式分析。它是一种无服务器的平台即服务，且可与MapReduce相互补充使用。

Apache Spark是一个开源丛集运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Apache Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中，Spark使用了内存内运算技术，能在资料尚未写入硬盘时即在内存内分析运算。Spark在内存内执行程式的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是执行程式于硬盘时，Spark也能快上10倍速度。Spark允许用户将资料加载至丛集内存，并多次对其进行查询，非常适合用于机器学习算法。

Pig是一个基于Apache Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口，使用者可以透过Python或者JavaScript编写Java，之后再重新转写。

杰佛瑞·艾德盖尔·迪恩，昵称杰夫·迪恩，生于美国，电脑科学家与软件工程师。现为Google公司员工，曾参与开发BigTable、MapReduce等产品。

Apache Hadoop是一款支持数据密集型分布式计算应用程序并以Apache许可证发布的开源软件框架。它支持在商用硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google档案系统的论文自行实作而成。所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理。

Apache CouchDB是一个开源数据库，专注于易用性和成为"完全拥抱万维网的数据库"。它是一个使用JSON作为存储格式，JavaScript作为查询语言，MapReduce和HTTP作为API的面向文档的NoSQL数据库。其中一个显著的功能就是多主复制。CouchDB的第一个版本发布在2005年，在2008年成为了Apache的项目。

杰佛瑞·艾德盖尔·迪恩，昵称杰夫·迪恩，生于美国，电脑科学家与软件工程师。现为Google公司员工，曾参与开发BigTable、MapReduce等产品。