现在位置: 首页 > 大数据 > 文章
hadoop系列之五:hadoop 2.2.0的安装配置已关闭评论
2014年03月29日 hadoop, 大数据 ⁄ 共 21378字 ⁄ 被围观 9,543 views+
1 安装前的准备工作 环境说明: 四台服务器,均采用CentOS 6.5 (64bit)平台: 服务器:hdnode01,用途:NameNode和JobTraker 服务器:hdnode02-04,用途:DataNode和TaskTraker JDK: jdk-6u24-linux-x64.rpm Hadoop:hadoop-2.2.0.tar.gz 其他准备: 配置时间同步 配置SSH免密码登陆 名称解析(我这里默认已配置好dns) 1.1 配置SSH免密码登陆: 为了方便后面的配置,我们先配置SSH免密码登陆,以后所有操作都可以在hdnode01...
阅读全文
hadoop系列之四:hadoop版本选择已关闭评论
2014年03月27日 hadoop, 大数据 ⁄ 共 4283字 ⁄ 被围观 12,248 views+
hadoop的版本线路: hadoop的版本是很“混乱”的,并不像我们常见的软件版本一样,版本号高的就最新,hadoop的版本可以用“诡异”二字描述,具体看下图: 注:0.20-security分支开始引入了Kerberos认证,解决了HDFS无认证的安全问题。 Apache Hadoop版本功能介绍 第一代Hadoop特性: append:支持文件追加功能,让用户使用HBase的时候避免数据丢失,也是使用HBase的前提。 raid:保证数据可靠,引入校验码校验数据块数目。 symlin...
阅读全文
hadoop系列之三:Hadoop分布式文件系统(HDFS)理论基础已关闭评论
2014年03月26日 hadoop, 大数据 ⁄ 共 3282字 ⁄ 被围观 7,267 views+
前面的讨论中,我们已经了解了Hadoop中实现的MapReduce是一个编程模型和运行框架,它能够通过JobTracker接收客户提交的作业而后将其分割为多个任务后并行运行在多个TaskTracker上。而问题是,这些TaskTracker如何高效获取所要处理的数据? 在传统的高性能集群中,计算节点和存储节点是各自独立的,它们之间通过高速网络完成互联,然而,在面临海量数据处理的问题时,网络必然会成为整个系统的性能瓶颈,这就需要引入超高速的网...
阅读全文
hadoop系列之二:MapReduce理论基础已关闭评论
2014年03月25日 hadoop, 大数据 ⁄ 共 7054字 ⁄ 被围观 9,816 views+
每个MapReduce job都是Hadoop客户端想要执行的一个工作单元,它一般由输入数据、MapReduce程序和配置信息组成,而Hadoop会把每个job分隔成两类任务(task):map任务和reduce任务。在Hadoop集群中有两类节点来执行两类job进程的执行 。 1 大数据处理 任何基础业务包含了收集、分析、监控、过滤、搜索或组织web内容的公司或组织都面临着所谓的“大数据”问题:“web规模”处理即海量数据处理的代名词。社交类网站的兴起也使得这些组织...
阅读全文
hadoop系列之一:Hadoop简介已关闭评论
2014年03月24日 hadoop, 大数据 ⁄ 共 2646字 ⁄ 被围观 7,398 views+
Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。 Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。此外,Hadoop还提供了分布式文件系统...
阅读全文
[转]大数据处理利器:Hadoop具有五大优势已关闭评论
2014年03月20日 hadoop, 大数据 ⁄ 共 975字 ⁄ 被围观 5,018 views+
现在,如果你没有听说过Hadoop,那么你一定落伍了。作为一个全新的开源项目,Hadoop提供了一中新的方式用来存储和处理器数据。大型的互联网公司,如谷歌、Facebook都使用Hadoop来存储和管理它们庞大的数据集。Hadoop也通过在这些领域的应用证明了其五大优势: 高可扩展性 Hadoop是一个高度可扩展的存储平台,因为他可以存储和分发横跨数百个并行操作的廉价的服务器数据集群。不同于传统的关系型数据库系统不能扩展到处理大量的...
阅读全文
[转]六个超大规模Hadoop部署案例一览已关闭评论
2014年03月17日 大数据, 大数据资讯 ⁄ 共 4828字 ⁄ 被围观 5,148 views+
虽然Hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不想猜测这个平台未来会如何,也不想猜测各种数据密集型解决方案的开源技术未来会如何,而是关注让Hadoop越来越火的实际应用案例。 案例之一:eBay的Hadoop环境 eBay分析平台开发小组的Anil Madan讨论了这家拍卖行业的巨擘在如何充分发挥Hadoop平台的强大功能,充分利用每天潮水般涌入的8...
阅读全文
【转】Don’t use Hadoop – your data isn’t that big已关闭评论
2013年11月19日 大数据, 大数据资讯 ⁄ 共 5883字 ⁄ 被围观 7,092 views+
本文《别老扯什么Hadoop了,你的数据根本不够大》出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据分析、推荐优化咨询服务。 “So, how much experience do you have with Big Data and Hadoop?” they asked me. I told them that I use Hadoop all the time, but rarely for jobs larger than a few ...
阅读全文
×