Apache Hadoop 编辑
Apache Hadoop是一款支持数据密集型分布式计算应用程序并以Apache许可证发布的开源软件框架。它支持在商用硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduceGoogle档案系统的论文自行实作而成。所有的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。
3
相关
Apache Sqoop是用于在关系型数据库和Apache Hadoop之间传输数据的开源工具。 该项目始于2009年,在2021年6月结束,并被移至Apache Attic。
XGBoost 是一个开源软件函式库,它为 C++、Java、Python、
R语言、和Julia提供了一个梯度提升技术框架,适用于Linux、Microsoft Windows、和
MacOS。 根据项目的描述,它的目的在于提供一个"可扩展、可移植和分布式梯度提升库"。 XGBoost除了可以在单一机器上运行,也支持运行在分布式框架Apache Hadoop、Apache Spark、Apache Flink。
近几年,由于这个算法受到许多在机器学习竞赛中获奖团队的青睐,因而受到了广泛的欢迎和关注。
Hortonworks是一家位于美国加州帕拉奥图的商业计算机软件公司,专注于Apache Hadoop的开发和支持。Apache Hadoop是一种框架,能分布式处理跨计算机集群的海量数据。
Cloudera是一家位于美国的软件公司,向企业客户提供基于Apache Hadoop的软件、支持、服务以及培训。
Apache Spark是一个开源丛集运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Apache Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中,Spark使用了内存内运算技术,能在资料尚未写入硬盘时即在内存内分析运算。Spark在内存内执行程式的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是执行程式于硬盘时,Spark也能快上10倍速度。Spark允许用户将资料加载至丛集内存,并多次对其进行查询,非常适合用于机器学习算法。
Pig是一个基于Apache Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口,使用者可以透过Python或者JavaScript编写Java,之后再重新转写。
MapR是一所美国企业管理软件公司、全球三大Hadoop开源大数据软件的提供商之一,总部位于美国加州圣何塞市,主要参与大数据的安全优化与开发、销售Apache Hadoop的衍生软件。MapR和Apache Hadoop一起参加过Apache HBase、Apache Hive、Apache ZooKeeper等项目的研发。MAPR曾被亚马逊云服务选择为亚马逊公司弹性云EC2的升级版本。MapR称,目前为止该公司的付费认证客户总数已达500家。
archive.today又称archive.is,是一个私人资助的网页存档网站,资料中心位于欧洲法国的北部-加来海峡。这个网站典藏档案馆使用Apache Hadoop与Apache Accumulo软件。它可以一次取回一个类似于WebCite的小于50MB的页面,并能收录Google地图与Twitter。
archive.today又称archive.is,是一个私人资助的网页存档网站,资料中心位于欧洲法国的北部-加来海峡。这个网站典藏档案馆使用Apache Hadoop与Apache Accumulo软件。它可以一次取回一个类似于WebCite的小于50MB的页面,并能收录Google地图与Twitter。