现在位置: 首页 > 大数据 > 文章
+0°
2014年08月22日 hadoop ⁄ 共 6493字 ⁄ 被围观 4,309 views+
随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多)。 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起...
阅读全文
+8°
2014年06月23日 hadoop ⁄ 共 3491字 ⁄ 被围观 4,864 views+
需要分析来自许多Web服务器的Apache日志文件时。 虽然我们可以吧每个日志文件都复制到HDFS中, 但通常而言HADOOP处理单个大文件会比处理多个小文件更有效率。此外从分析的目的来看,我们吧日志数据视为一个大文件。 日志数据被分散在多个文件是由于WEB服务器采用分布式构架带来的副作用。一种解决办法是先将所有的文件合并,然后复制到HDFS。 可是文件合并需要占用本地计算机打来能干的磁盘空间爱你,如果我们能够在向HDFS复制的...
阅读全文
+5°
2014年06月20日 Spark ⁄ 共 2983字 ⁄ 被围观 4,031 views+
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,即使使用磁盘,迭代类型的计算也会有10倍速度的提升。Spark从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark当下已成为Apache基金会的顶级开源项目,拥有着庞大的社区支持——活跃开发者人数已超过Hadoop MapReduce)。这里,我们为大家分享许鹏的“Apache Spark源码走读”系列博...
阅读全文
+7°
2014年06月20日 大数据资讯 ⁄ 共 1319字 ⁄ 被围观 3,926 views+
被媒体称为“首届大数据时代的高考”刚刚结束,细心的网友就发现,全国高考作文题目18卷中12卷的作文方向被百度大数据预测命中,被网友戏称“神预测”。以上海市为例,2014年上海卷高考作文题为“自由与不自由”,在百度大数据预测的出题概率第二大作文主题“生命的多彩”中,恰好命中作文关键词“自由”。 借助高考这个牵动亿万中国人心的全民聚焦事件,基于大数据和人工智能的大数据技术再一次走入了公众的视野,这将是引爆技术变革的蝴...
阅读全文
+11°
2014年06月18日 hadoop ⁄ 共 3602字 ⁄ 被围观 4,036 views+
在工作生活中,有些问题非常简单,但往往搜索半天也找不到所需的答案,在Hadoop的学习与使用过程中同样如此。这里为大家分享Hadoop集群设置中经常出现的一些问题,以下为转载译文(主要基于hadoop 0.20,有部分不适用的地方,请注意区分): 1.Hadoop集群可以运行的3个模式? 单机(本地)模式 伪分布式模式 全分布式模式 2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在...
阅读全文
+9°
2014年06月18日 大数据资讯 ⁄ 共 1660字 ⁄ 被围观 2,653 views+
通过大数据计算对社交信息数据、客户互动数据等,可以帮助企业进行品牌信息的水平化设计和碎片化扩散。经济学家Richard H. Thaler曾经提出一种观点,“个人观点的微小变化都可以演变为所有人的群体行为模式的重大变革。 下面,我们来看一下到底大数据到底能帮什么忙: 1、帮企业了解用户 大数据通过相关性分析,将客户、用户和产品进行有机串联,对用户的产品偏好,客户的关系偏好进行个性化定位,生产出用户驱动型的产品,提供...
阅读全文
+0°
2014年06月16日 大数据资讯 ⁄ 共 2020字 ⁄ 被围观 3,277 views+
说到大数据,最近互联网各种热词很多,各种概念满天飞,其中不乏有忽悠一说。大数据到底是什么,会给我们生活带来哪些影响? 【大数据是一个时代,“国家队”很及时】 去年底宣布的一个事情,将对未来有深远影响,现在大家还没意识到。 2013年11月19日,国家统计局与11家国内企业签署战略合作框架协议,合作内容涉及大数据应用统计标准,以及企业数据补充政府统计数据等领域。有分析称,在大数据国家战略日益强烈的情况下,统计局...
阅读全文
+0°
2014年06月16日 hadoop ⁄ 共 3123字 ⁄ 被围观 13,354 views+
玩转Ambari之二:本地yum源建立 安装前文方法建立好ambari本地源后,就可以开始安装并配置ambari服务器了,只有配置好ambari服务器后,才可以通过Amabri的Web页面实现对hadoop集群的自动化部署。服务器规划列表如下: 序号 主机FQDN 主机IP 用途规划 1 hd00.toxingwang.com 172.18.8.200 yum源、nagios服务器、备份NameNode等 2 hd01.toxingwang.com 172.18.8.201 NameNode、ResourceManager等主节点 3 hd02.toxingwan...
阅读全文
+0°
2014年06月15日 大数据资讯 ⁄ 共 2374字 ⁄ 被围观 2,456 views+
新世界杯赛事已经正式拉开帷幕2天了,全世界的球迷与非球迷也将共同享受这段激情燃烧、热血澎湃的美好时光。清爽的啤酒已斟满、闪亮的屏幕已就绪,每个人胸怀对国家的热爱以及也许有些不切实际的期盼关注着绿茵场上的竞逐。目前关于本届世界杯的各项统计数据已经火热出炉;巴西预计将迎来全球各地共计370万名观众,由此带来的经济效应高达30.3亿美元;专门销售球星卡等周边产品的帕尼尼公司预计单在巴西本土,由贴纸带来的营收...
阅读全文
+0°
2014年06月15日 hadoop, 大数据 ⁄ 共 6243字 ⁄ 被围观 2,608 views+
敏感信息的安全和保护是当今人们最关心的问题之一。进入大数据时代,很多组织都在从各种源头收集数据,进行分析,并基于对海量数据集的分析做出决策,因此这一过程中的安全问题变得愈发重要。与此同时,HIPAA和其他隐私保护法之类的法律法规也要求组织加强对这些数据集的访问控制和隐私限制。来自内部和外部攻击者的网络安全漏洞与日俱增,通常都要数月之后才能发现,而那些受此影响的人正在为此付出代价。没能对他们的数据做出...
阅读全文
×