现在位置: 首页 > 大数据 > hadoop > 文章
+0°
2014年08月22日 hadoop ⁄ 共 6493字 ⁄ 被围观 4,662 views+
随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多)。 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起...
阅读全文
+8°
2014年06月23日 hadoop ⁄ 共 3491字 ⁄ 被围观 5,804 views+
需要分析来自许多Web服务器的Apache日志文件时。 虽然我们可以吧每个日志文件都复制到HDFS中, 但通常而言HADOOP处理单个大文件会比处理多个小文件更有效率。此外从分析的目的来看,我们吧日志数据视为一个大文件。 日志数据被分散在多个文件是由于WEB服务器采用分布式构架带来的副作用。一种解决办法是先将所有的文件合并,然后复制到HDFS。 可是文件合并需要占用本地计算机打来能干的磁盘空间爱你,如果我们能够在向HDFS复制的...
阅读全文
+11°
2014年06月18日 hadoop ⁄ 共 3602字 ⁄ 被围观 5,372 views+
在工作生活中,有些问题非常简单,但往往搜索半天也找不到所需的答案,在Hadoop的学习与使用过程中同样如此。这里为大家分享Hadoop集群设置中经常出现的一些问题,以下为转载译文(主要基于hadoop 0.20,有部分不适用的地方,请注意区分): 1.Hadoop集群可以运行的3个模式? 单机(本地)模式 伪分布式模式 全分布式模式 2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在...
阅读全文
+0°
2014年06月16日 hadoop ⁄ 共 3123字 ⁄ 被围观 16,396 views+
玩转Ambari之二:本地yum源建立 安装前文方法建立好ambari本地源后,就可以开始安装并配置ambari服务器了,只有配置好ambari服务器后,才可以通过Amabri的Web页面实现对hadoop集群的自动化部署。服务器规划列表如下: 序号 主机FQDN 主机IP 用途规划 1 hd00.toxingwang.com 172.18.8.200 yum源、nagios服务器、备份NameNode等 2 hd01.toxingwang.com 172.18.8.201 NameNode、ResourceManager等主节点 3 hd02.toxingwan...
阅读全文
+0°
2014年06月15日 hadoop, 大数据 ⁄ 共 6243字 ⁄ 被围观 2,878 views+
敏感信息的安全和保护是当今人们最关心的问题之一。进入大数据时代,很多组织都在从各种源头收集数据,进行分析,并基于对海量数据集的分析做出决策,因此这一过程中的安全问题变得愈发重要。与此同时,HIPAA和其他隐私保护法之类的法律法规也要求组织加强对这些数据集的访问控制和隐私限制。来自内部和外部攻击者的网络安全漏洞与日俱增,通常都要数月之后才能发现,而那些受此影响的人正在为此付出代价。没能对他们的数据做出...
阅读全文
+5°
2014年06月10日 hadoop, 大数据 ⁄ 共 1622字 ⁄ 被围观 3,889 views+
在部署hadoop中,不管是用传统模式手工部署还是采用ambari自动部署,都需要用到ssh-key方式实现免密码的登录,下面这几个脚本可以实现生成、拷贝key、拷贝hosts文件等功能。具体如下: 1、生成ssh-key脚本 #!/bin/sh ## create ssh-key ## by Barlow ## 2014-06-06 ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys ssh-keygen一般来说需要输入passphrase,但是一般都是三个回车过去...
阅读全文
+0°
2014年06月07日 hadoop ⁄ 共 3653字 ⁄ 被围观 14,489 views+
生产中的hadoop集群机器都很多,而且基本都不允许连接公网,为方便快速部署,非常有必要建立一个本地Repository,下面详细介绍建立过程。 主要资源: CentOS 6.5 x86_64 镜像 Ambari-1.5.1 HDP-2.1 HDP-UTILS-1.1.0.17   一、安装基本软件并配置: yum install yum-utils createrepo yum-plugin-priorities yum install httpd 编辑/etc/yum/pluginconf.d/priorities.conf,修改为如下: [main] enabled=1 gpgcheck=0 ...
阅读全文
+0°
2014年06月05日 hadoop, 大数据 ⁄ 共 2405字 ⁄ 被围观 22,382 views+
说在前面: 这段时间为公司部署了测试环境的Hadoop,采用了apache最新社区版,在使用中也遇到了各种各样的问题,但还是跑起来了,其他同事已能再其上运行推荐算法等基础应用。但在管理和后继部署中,越来越多的问题不断出现,主要如下: 各集群节点的配置同步:我采用rsync+sersync+inotify实现,但配置较复杂 新应用的部署:比如为集群添加hbase应用,需要很细心复杂的配置才能完成,而且要是操作错误,还可能导致正常的集...
阅读全文
+0°
2014年05月08日 hadoop, 大数据 ⁄ 共 1588字 ⁄ 被围观 2,570 views+
因为项目的需要,学习使用了Hadoop,和所有过热的技术一样,“大数据”、“海量”这类词语在互联网上满天乱飞。Hadoop是一个非常优秀的分布式编程框架,设计精巧而且目前没有同级别同重量的替代品。另外也接触到一个内部使用的框架,对于Hadoop做了封装和定制,使得更满足业务需求。我最近也想写一些Hadoop的学习和使用心得,但是看到网上那么泛滥的文章,我觉得再写点笔记一样的东西实在是没有价值。倒不如在漫天颂歌的时候冷静下...
阅读全文
+6°
2014年04月28日 hadoop, 大数据 ⁄ 共 6714字 ⁄ 被围观 6,448 views+
环境说明: Java:Oracle Java JDK 1.6.0_24 hadoop环境及安装参考前文:hadoop系列之五:hadoop 2.2.0的安装配置 zookeeper环境参考前文:hadoop系列之十一:Zookeeper简介及安装 HBase环境参考前文:hadoop系列之十二:搭建hbase集群 一、安装R环境: yum repo:可安装如下repo: # rpm -Uvh http://archive.linux.duke.edu/pub/epel//6/x86_64/epel-release-6-8.noarch.rpm  ##地址可能会改变 因集群机器较多,我是使用一...
阅读全文
×