现在位置: 首页 >
所有2014年04月文章
RHadoop之二:安装RHadoop已关闭评论
环境说明:
Java:Oracle Java JDK 1.6.0_24
hadoop环境及安装参考前文:hadoop系列之五:hadoop 2.2.0的安装配置
zookeeper环境参考前文:hadoop系列之十一:Zookeeper简介及安装
HBase环境参考前文:hadoop系列之十二:搭建hbase集群
一、安装R环境:
yum repo:可安装如下repo:
# rpm -Uvh http://archive.linux.duke.edu/pub/epel//6/x86_64/epel-release-6-8.noarch.rpm ##地址可能会改变
因集群机器较多,我是使用一...
阅读全文
IE曝新漏洞:黑客可获系统控制权 涉所有版本已关闭评论
2014年04月28日
⁄ Windows 7/8, 网络安全
⁄ 共 571字 ⁄ 被围观 7,447 views+
北京时间4月28日消息,据科技网站CNET报道,微软周六晚些时候证实,在所有版本的IE浏览器上均发现存在一处新的零日漏洞,该漏洞可致黑客通过执行远程代码获得系统控制权,从而发动“有限的、针对性的攻击”。
安全公司Fire Eye最早于上周五发现了该漏洞。据Fire Eye称,该漏洞为一未知的“释放后使用”(use after free)类型漏洞——在内存释放后获取数据的数据破坏,并可绕过Windows的DEP(数据执行预防)和ASLR(地址空间布局随机...
阅读全文
hadoop系列之十二:搭建hbase集群已关闭评论
HBase折腾了我几天,现在终于全部正常,部署过程中主要需要注意如下地方:
集群各节点时间是否同步
目录权限是否正确
配置是否同步
hdfs、zookeeper等是否已经正常启动,启动顺序:hadoop—>zookeeper—>hbase—>(以及后面的将要讲到的其他应用)
注意:
我的节点为4个,分别为hdnode01(master)、hdnode02、hdnode03、hdnode04,在配置过程中我都是在第一个节点上完成所有配置的。大量用了for循环实现。
hadoo版...
阅读全文
RHadoop之一:R语言简介已关闭评论
1. R语言介绍
起源
R语言,一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU计划项目,所以也可以当作S语言的一种实现。R的语法是来自Scheme。
跨平台,许可证
R的源代码可自由下载使用,GNU通用公共许可证,可在多种平台下运行,包括UNIX,Linux,Windows和MacOS。...
阅读全文
腾讯大规模Hadoop集群实践已关闭评论
本文转自《程序员》,以前很少看到腾讯大数据方面的介绍。腾讯此架构对很多公司具备参考意义。
TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。
TDW服务覆盖了腾讯绝大部分业务产品,单集群规模达到4400台,CPU总核数达到10万左右,存储容量达到100PB;每...
阅读全文
浅谈OO思想已关闭评论
hadoop系列之十一:Zookeeper简介及安装已关闭评论
一、Zookeeper简介:
Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文件中各个配置项的意义,以及分析 Zookeeper 的典型的应用场景(配置文件的管理、集群管理、同步锁、Leader 选举、队列管理等)。
1.1 数据模型
Zookeeper 会...
阅读全文
hadoop系列之十:HBase简介已关闭评论
HBase是一个分布式的、面向列的开源数据库(列式数据库),该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop的HDFS之上提供了类似于Bigtable的能力。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
1、HBase的逻辑...
阅读全文
hadoop系列之九:hadoop2.x常用端口及定义方法已关闭评论
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。
这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:
组件
节点
默认端口
配置
用途说明
HDFS
DataNode
50010
dfs.datanode.address
datanode服务端口,用于数据传输
HDFS
DataNode
50075
dfs.datanode...
阅读全文
hadoop系列之八:运行简单MapReduce实例已关闭评论
hadoop系列之七:HDFS基本操作
hadoop系列之六:CentOS X64编译安装hadoop
hadoop系列之五:hadoop 2.2.0的安装配置
hadoop系列之四:hadoop版本选择
hadoop系列之三:Hadoop分布式文件系统(HDFS)理论基础
hadoop系列之二:MapReduce理论基础
hadoop系列之一:Hadoop简介
前面系列博客已经了解了hadoop的基本架构、理论基础、安装和hdfs的基本使用,下面就可以运行一个MapReduce进行简单的实验了。
在/usr/local/hadoop/share...
阅读全文