MapReduce 编辑
MapReduce是Google提出的一个软件架构,用于大数据的并行运算。概念“Map”和“Fold”,及他们的主要思想,都是从函数式编程语言借鉴的,还有从矢量编程语言借来的特性。
2
相关
Apache Hadoop是一款支持数据密集型分布式计算应用程序并以Apache许可证发布的开源软件框架。它支持在商用硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google档案系统的论文自行实作而成。所有的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。
BigQuery是一个表现层状态转换的Web服务 ,可以对与Google Storage结合使用的大型数据集进行交互式分析。它是一种无服务器的平台即服务,且可与MapReduce相互补充使用。
Apache Spark是一个开源丛集运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Apache Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中,Spark使用了内存内运算技术,能在资料尚未写入硬盘时即在内存内分析运算。Spark在内存内执行程式的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是执行程式于硬盘时,Spark也能快上10倍速度。Spark允许用户将资料加载至丛集内存,并多次对其进行查询,非常适合用于机器学习算法。
Pig是一个基于Apache Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口,使用者可以透过Python或者JavaScript编写Java,之后再重新转写。
杰佛瑞·艾德盖尔·迪恩,昵称杰夫·迪恩,生于美国,电脑科学家与软件工程师。现为Google公司员工,曾参与开发BigTable、MapReduce等产品。
Apache Hadoop是一款支持数据密集型分布式计算应用程序并以Apache许可证发布的开源软件框架。它支持在商用硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google档案系统的论文自行实作而成。所有的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。
Apache Hadoop是一款支持数据密集型分布式计算应用程序并以Apache许可证发布的开源软件框架。它支持在商用硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google档案系统的论文自行实作而成。所有的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。
Apache CouchDB是一个开源数据库,专注于易用性和成为"完全拥抱万维网的数据库"。它是一个使用JSON作为存储格式,JavaScript作为查询语言,MapReduce和HTTP作为API的面向文档的NoSQL数据库。其中一个显著的功能就是多主复制。CouchDB的第一个版本发布在2005年,在2008年成为了Apache的项目。
杰佛瑞·艾德盖尔·迪恩,昵称杰夫·迪恩,生于美国,电脑科学家与软件工程师。现为Google公司员工,曾参与开发BigTable、MapReduce等产品。