现在位置: 首页 > 大数据 > 文章
RHadoop之一:R语言简介已关闭评论
2014年04月26日 hadoop, 大数据 ⁄ 共 3439字 ⁄ 被围观 6,383 views+
1. R语言介绍 起源 R语言,一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU计划项目,所以也可以当作S语言的一种实现。R的语法是来自Scheme。 跨平台,许可证 R的源代码可自由下载使用,GNU通用公共许可证,可在多种平台下运行,包括UNIX,Linux,Windows和MacOS。...
阅读全文
腾讯大规模Hadoop集群实践已关闭评论
2014年04月18日 hadoop, 大数据 ⁄ 共 7447字 ⁄ 被围观 4,751 views+
本文转自《程序员》,以前很少看到腾讯大数据方面的介绍。腾讯此架构对很多公司具备参考意义。 TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。 TDW服务覆盖了腾讯绝大部分业务产品,单集群规模达到4400台,CPU总核数达到10万左右,存储容量达到100PB;每...
阅读全文
hadoop系列之十一:Zookeeper简介及安装已关闭评论
2014年04月16日 hadoop, 大数据 ⁄ 共 12345字 ⁄ 被围观 8,859 views+
一、Zookeeper简介: Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文件中各个配置项的意义,以及分析 Zookeeper 的典型的应用场景(配置文件的管理、集群管理、同步锁、Leader 选举、队列管理等)。 1.1 数据模型 Zookeeper 会...
阅读全文
hadoop系列之十:HBase简介已关闭评论
2014年04月08日 hadoop, 大数据 ⁄ 共 2170字 ⁄ 被围观 6,933 views+
HBase是一个分布式的、面向列的开源数据库(列式数据库),该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop的HDFS之上提供了类似于Bigtable的能力。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 1、HBase的逻辑...
阅读全文
hadoop系列之九:hadoop2.x常用端口及定义方法已关闭评论
2014年04月07日 hadoop, 大数据 ⁄ 共 2938字 ⁄ 被围观 7,793 views+
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。 这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper: 组件 节点 默认端口 配置 用途说明 HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DataNode 50075 dfs.datanode...
阅读全文
hadoop系列之八:运行简单MapReduce实例已关闭评论
2014年04月06日 hadoop, 大数据 ⁄ 共 4765字 ⁄ 被围观 10,737 views+
hadoop系列之七:HDFS基本操作 hadoop系列之六:CentOS X64编译安装hadoop hadoop系列之五:hadoop 2.2.0的安装配置 hadoop系列之四:hadoop版本选择 hadoop系列之三:Hadoop分布式文件系统(HDFS)理论基础 hadoop系列之二:MapReduce理论基础 hadoop系列之一:Hadoop简介 前面系列博客已经了解了hadoop的基本架构、理论基础、安装和hdfs的基本使用,下面就可以运行一个MapReduce进行简单的实验了。 在/usr/local/hadoop/share...
阅读全文
hadoop系列之七:HDFS基本操作已关闭评论
2014年04月06日 hadoop, 大数据 ⁄ 共 8626字 ⁄ 被围观 11,876 views+
前文讲解了hadoop的基础理论及安装与配置: hadoop系列之六:CentOS X64编译安装hadoop hadoop系列之五:hadoop 2.2.0的安装配置 hadoop系列之四:hadoop版本选择 hadoop系列之三:Hadoop分布式文件系统(HDFS)理论基础 hadoop系列之二:MapReduce理论基础 hadoop系列之一:Hadoop简介 下面继续实际操作。 1. hdfs shell命令简介 既然 HDFS 是存取数据的分布式文件系统,那么对 HDFS 的操作,就是文件系统的基本操作,比...
阅读全文
hadoop系列之六:CentOS X64编译安装hadoop已关闭评论
2014年04月05日 hadoop, 大数据 ⁄ 共 2486字 ⁄ 被围观 7,242 views+
一、安装准备 1.1 安装protobuf 下载 http://protobuf.googlecode.com/files/protobuf-2.5.0.tar.gz 编译安装protobuf前,需要先安装gcc、gcc-c++、make等编译所必须的工具,编译安装过程如下: [root@hdnode01 ~]# tar xf protobuf-2.5.0.tar.gz [root@hdnode01 ~]# cd protobuf-2.5.0 [root@hdnode01 protobuf-2.5.0]# ./configure --prefix=/usr/local/protobuf [root@hdnode01 protobuf-2.5.0]# make –j4 [root@hdnode01 pr...
阅读全文
看看全球十大电信巨头的大数据玩法已关闭评论
2014年04月03日 大数据, 大数据资讯 ⁄ 共 4005字 ⁄ 被围观 6,178 views+
对于电信运营商而言,没有哪一个时代能比肩4G时代,轻松掌握如此海量的客户数据。4G时代,手机购物、视频通话、移动音乐下载、手机游戏、手机IM、移动搜索、移动支付等移动数据业务层出不穷。它们在为用户创造了前所未有的新体验同时,也为电信运营商挖掘用户数据价值提供了大数据的视角。数据挖掘、数据共享、数据分析已经成为全球电信运营商转变商业模式,赢取深度商业洞察力的基本共识。 目前,全球120家运营商中,已经有48%...
阅读全文
HBase在搜狐内容推荐引擎系统中的应用已关闭评论
2014年04月02日 大数据, 大数据资讯 ⁄ 共 7326字 ⁄ 被围观 28,364 views+
Facebook放弃Cassandra之后,对HBase 0.89版本进行了大量稳定性优化,使它真正成为一个工业级可靠的结构化数据存储检索系统。Facebook的Puma、Titan、ODS时间序列监控系统都使用HBase作为后端数据存储系统。在国内公司的一些项目中也用到了HBase。 HBase隶属于Hadoop生态系统,从设计之初就十分注重系统的扩展性,对集群的动态扩展、负载均衡、容错、数据恢复等都有充分考虑。相比于传统关系型数据库,HBase更适用于数据量大、...
阅读全文
×