现在位置: 首页 > 大数据 > 文章
[转]分析资源管理系统的演变: 从Mesos、YARN再到Google Omega已关闭评论
2014年06月13日 大数据, 大数据资讯 ⁄ 共 2892字 ⁄ 被围观 6,210 views+
背景 我觉得资源管理器所要处理的问题无外乎几块:资源分配的策略,资源分配的粒度,资源分配的方式,不同类型任务的调度等。看了Google新一代资源管理器Omega的论文之后,对比Mesos和YARN总结了下面一些内容。 问题分类 任何资源调度系统都将面临下面几个问题。 该怎么分离不同的调度工作? 第一,可以无视任务类型,进行均衡负载地分配。第二,专门分离一些适合不同调度工作的调度器去负责各种调度反正。第三,上两种的结合。...
阅读全文
大数据的结果是福是祸?已关闭评论
2014年06月11日 大数据, 大数据资讯 ⁄ 共 2520字 ⁄ 被围观 5,757 views+
一、统计现象可能是病态的; 我们经常得到一些用户的消费或者娱乐行为,但是这些行为可能是病态的。这里我就举两个病态的习惯现象作为例子说明。有些用户具有一种病态的消费习惯,习惯于同时消费一定数量的产品,或者某种特定的产品组合。比如,有些肥胖症病人,喜欢吃高热量食品,当然就喜欢看到高热量食品摆放在一起,但是这样就无形中鼓励了对这些用户的不良消费习惯。另一个例子是网络文学。现在的网络文学可算是世界奇观,...
阅读全文
Hadoop部署用到的几个简单脚本已关闭评论
2014年06月10日 hadoop, 大数据 ⁄ 共 1622字 ⁄ 被围观 6,676 views+
在部署hadoop中,不管是用传统模式手工部署还是采用ambari自动部署,都需要用到ssh-key方式实现免密码的登录,下面这几个脚本可以实现生成、拷贝key、拷贝hosts文件等功能。具体如下: 1、生成ssh-key脚本 #!/bin/sh ## create ssh-key ## by Barlow ## 2014-06-06 ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys ssh-keygen一般来说需要输入passphrase,但是一般都是三个回车过去...
阅读全文
玩转Ambari之二:本地yum源建立已关闭评论
2014年06月07日 hadoop ⁄ 共 3653字 ⁄ 被围观 21,195 views+
生产中的hadoop集群机器都很多,而且基本都不允许连接公网,为方便快速部署,非常有必要建立一个本地Repository,下面详细介绍建立过程。 主要资源: CentOS 6.5 x86_64 镜像 Ambari-1.5.1 HDP-2.1 HDP-UTILS-1.1.0.17   一、安装基本软件并配置: yum install yum-utils createrepo yum-plugin-priorities yum install httpd 编辑/etc/yum/pluginconf.d/priorities.conf,修改为如下: [main] enabled=1 gpgcheck=0 ...
阅读全文
玩转Ambari之一:系统架构已关闭评论
2014年06月05日 hadoop, 大数据 ⁄ 共 2405字 ⁄ 被围观 44,374 views+
说在前面: 这段时间为公司部署了测试环境的Hadoop,采用了apache最新社区版,在使用中也遇到了各种各样的问题,但还是跑起来了,其他同事已能再其上运行推荐算法等基础应用。但在管理和后继部署中,越来越多的问题不断出现,主要如下: 各集群节点的配置同步:我采用rsync+sersync+inotify实现,但配置较复杂 新应用的部署:比如为集群添加hbase应用,需要很细心复杂的配置才能完成,而且要是操作错误,还可能导致正常的集...
阅读全文
大数据四个“战场”:实时打击欺诈犯罪已关闭评论
2014年06月04日 大数据, 大数据资讯 ⁄ 共 1588字 ⁄ 被围观 7,508 views+
如今,当人们谈到欺诈时,可能第一个想到的是银行,事实也是如此——银行是最容易受到威胁的行业。但过去Interac Association的一份报告显示在加拿大借记卡欺诈损失实际上已经下降了62%,而且到了2013年受益于芯片和PIN技术的发展,随着一些安全性高、欺诈检测机制发展起来,可以帮助企业实时检测到欺诈行为,提升惩治犯罪机率。 对于欺诈率下降是个好消息,但是相比好消息,技术的发展不可能消除诈骗犯罪,欺诈者仍然能够利用许...
阅读全文
李彦宏发布百度大数据引擎,及与谷歌、亚马逊等类似项目对比已关闭评论
4月24日,以“大数据引擎驱动未来”为主题的百度第四届技术开放日在北京举行,会议期间百度推出了首款集基础设施、数据处理和机器学习的大数据引擎,而董事长兼CEO李彦宏亲自出席更凸显了百度对这一产品的重视,下面为大家分享罗超在虎嗅上的精彩分析。 以下为原文: 在昨天(4月24日)的百度技术开放日上,李彦宏现身并推出了百度大数据引擎。这在百度,表明对相关产品最高的重视了。 这个发布是什么意思呢?简单地讲,大数据...
阅读全文
Hadoop无法解决的问题已关闭评论
2014年05月08日 hadoop, 大数据 ⁄ 共 1588字 ⁄ 被围观 4,881 views+
因为项目的需要,学习使用了Hadoop,和所有过热的技术一样,“大数据”、“海量”这类词语在互联网上满天乱飞。Hadoop是一个非常优秀的分布式编程框架,设计精巧而且目前没有同级别同重量的替代品。另外也接触到一个内部使用的框架,对于Hadoop做了封装和定制,使得更满足业务需求。我最近也想写一些Hadoop的学习和使用心得,但是看到网上那么泛滥的文章,我觉得再写点笔记一样的东西实在是没有价值。倒不如在漫天颂歌的时候冷静下...
阅读全文
RHadoop之二:安装RHadoop已关闭评论
2014年04月28日 hadoop, 大数据 ⁄ 共 6714字 ⁄ 被围观 10,461 views+
环境说明: Java:Oracle Java JDK 1.6.0_24 hadoop环境及安装参考前文:hadoop系列之五:hadoop 2.2.0的安装配置 zookeeper环境参考前文:hadoop系列之十一:Zookeeper简介及安装 HBase环境参考前文:hadoop系列之十二:搭建hbase集群 一、安装R环境: yum repo:可安装如下repo: # rpm -Uvh http://archive.linux.duke.edu/pub/epel//6/x86_64/epel-release-6-8.noarch.rpm  ##地址可能会改变 因集群机器较多,我是使用一...
阅读全文
hadoop系列之十二:搭建hbase集群已关闭评论
2014年04月27日 hadoop, 大数据 ⁄ 共 5128字 ⁄ 被围观 10,079 views+
HBase折腾了我几天,现在终于全部正常,部署过程中主要需要注意如下地方: 集群各节点时间是否同步 目录权限是否正确 配置是否同步 hdfs、zookeeper等是否已经正常启动,启动顺序:hadoop—>zookeeper—>hbase—>(以及后面的将要讲到的其他应用) 注意: 我的节点为4个,分别为hdnode01(master)、hdnode02、hdnode03、hdnode04,在配置过程中我都是在第一个节点上完成所有配置的。大量用了for循环实现。 hadoo版...
阅读全文
×