智乐兔

大数据

  • 数据挖掘的概念

    数据挖掘的概念

    数据挖掘(Data Mining)技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,它们是海量数据搜集、强大的多处理器计算机和数据挖掘算法。     从技术角度来看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的 ...

    查看全文

  • 二进制数据传输中间件Avro介绍

    二进制数据传输中间件Avro介绍

    一、引言 1、 简介 Avro是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统。Avro 可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集型应用,适合于远程或本地大规模数据的存储和交换。 2、 特点 Ø  丰富的数据结构类型; Ø  快速可压缩的二进制数据形式,对数据二进制序列化后可以节约数据存储空间和网络传 ...

    查看全文

  • 在centos搭建网络爬虫与搜索引擎环境nutch2.3.1+mysql5.5/hadoop与hbase+solr4.6最佳实践

    在centos搭建网络爬虫与搜索引擎环境nutch2.3.1+mysql5.5/hadoop与hbase+solr4.6最佳实践

    nutch是Apache组织研发的一款开源的搜索引擎项目(网络爬虫),纯java实现,它提供了构建一个搜索引擎所需要的全部工具和功能。使用Nutch不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎。除了基本的功能之外,Nutch也还有不少自己的特色,如支持Hadoop框架执行真正大数据处理等。 开源算法更加透明, 排名结果更值得大家信赖,使用nutch可以做到: * 每个月取几十亿网页 * 为这些网页维护一个索引 * 对索引文件进行每秒上千次的搜索 * 提供高质量的搜索结果 Nutch的总体结构 Nutch从总体上看来,分为三个主要的部分:爬行、索引和搜索,各部分之间的关系 ...

    查看全文

  • 从大数据时代催生的新行业了解个人存在

    从大数据时代催生的新行业了解个人存在

    2012年纽约时报的一篇文章标志着人类社会进入大数据时代,在未来的几十年里,大数据都将会是一个重要都话题。大数据影响着每一个人,并在可以预见的未来继续影响着。大数据冲击着许多主要行业,包括零售业、金融行业、医疗行业等,大数据也在彻底地改变着我们的生活。现在我们就来看看大数据给中国带来的十商业应用场景,未来大数据产业将会是一个万亿市场。 1、智慧城市 如今,世界超过一半的人口生活在城市里,到2050年这一数字会增长到75%。政府需要利用一些技术手段来管理好城市,使城市里的资源得到良好配置。既不出现由于资源配置不平衡而导致的效率低下以及骚乱,又要避免不必要的资源浪费而导致的财政支出过大。大数据作为 ...

    查看全文

  • 数据时代爆发数据垄断的可能性分析

    数据时代爆发数据垄断的可能性分析

    我们知道,大数据已经被不少人定义为科学探索的第四范式、21世纪的新石油。那么作为资源、甚至资本的大数据将由谁主导?能否实现全世界的公平共享?权力的边界在哪里?就是充满悬念的问题。 从目前发展趋势看,少数公司和少数政府凭借对大数据掌握和分析处理的技术优势,正在掌控并垄断信息。如果不加以引导控制的话,未来将可能出现数据垄断和数据寡头。以FACEBOOK为例,2012年FACEBOOK有大约10亿用户,试想,全球10亿人都在同一个社交网络上留下个人信息及活动线索,而这些信息数据化之后都被一家公司掌握……”公司统治世界”的局面就好比把全世界的鸡蛋放进了一只并不坚实的篮子里,一 ...

    查看全文

  • 大数据时代互联网经济新内核

    大数据时代互联网经济新内核

      本期投资提示: 大数据产业有望呈现”线上数据化->线下数据化->数据流通”三段式发展过程。 (1)线上数据化:互联网1.0时代,以互联网企业为代表,最早沉淀线上数据; (2)线下数据化:”互联网+”时代,以传统线下企业为代表,借助互联网实现数据化; (3)数据流通:在线上/线下全产业实现数据化的趋势下,数据在产业链上下游甚至跨产业流通并创造价值。 数据开放大势所趋。信息使用的边际收益是递增的,信息流动和分享的范围越大,创造的价值就越高,而线上/线下数据化和数据开放正是信息大范围流动的两大前提。推动数据开放和流通在发达国 ...

    查看全文

  • 看大数据时代互联网的喜与忧

    看大数据时代互联网的喜与忧

    近来,“大数据”这个词非常的火热。随着科技与互联网的进步,数据似乎已经成为改变一家企业所必不可少的利器。尤其是随着大数据时代的到来,一些曾经非常棘手的问题都能够迎刃而解。比如Google能够先于美国的公共卫生机构发现流感的发生以及传播,甚至能够精确到某个地域,准确率曾高达97%,而这在小数据时代是完全无法想象的。 大数据时代无论是为企业还是为政府亦或是个人都带来了极大的便利。企业能够通过数据分析准确判断出客户的兴趣爱好、购买意向并以此来向客户推荐相关性最高的产品。而这其中做得最为成功的尤属亚马逊。亚马逊在最开始的时候采用的是图书评论形式来向用户推荐图书,但是当拥有大量的用户数据之后转而使用数 ...

    查看全文

在线客服
在线客服 X

售前: 点击这里给我发消息
售后: 点击这里给我发消息

智乐兔官微