立足于核心技术的平台研发

智乐兔科技

大数据

  • 数据挖掘的概念

    数据挖掘的概念

    数据挖掘(Data Mining)技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,它们是海量数据搜集、强大的多处理器计算机和数据挖掘算法。     从技术角度来看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的 ...

    查看全文

  • 二进制数据传输中间件Avro介绍

    二进制数据传输中间件Avro介绍

    一、引言 1、 简介 Avro是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统。Avro 可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集型应用,适合于远程或本地大规模数据的存储和交换。 2、 特点 Ø  丰富的数据结构类型; Ø  快速可压缩的二进制数据形式,对数据二进制序列化后可以节约数据存储空间和网络传 ...

    查看全文

  • 在centos搭建网络爬虫与搜索引擎环境nutch2.3.1+mysql5.5/hadoop与hbase+solr4.6最佳实践

    在centos搭建网络爬虫与搜索引擎环境nutch2.3.1+mysql5.5/hadoop与hbase+solr4.6最佳实践

    nutch是Apache组织研发的一款开源的搜索引擎项目(网络爬虫),纯java实现,它提供了构建一个搜索引擎所需要的全部工具和功能。使用Nutch不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎。除了基本的功能之外,Nutch也还有不少自己的特色,如支持Hadoop框架执行真正大数据处理等。 开源算法更加透明, 排名结果更值得大家信赖,使用nutch可以做到: * 每个月取几十亿网页 * 为这些网页维护一个索引 * 对索引文件进行每秒上千次的搜索 * 提供高质量的搜索结果 Nutch的总体结构 Nutch从总体上看来,分为三个主要的部分:爬行、索引和搜索, ...

    查看全文

  • 从大数据时代催生的新行业了解个人存在

    从大数据时代催生的新行业了解个人存在

    2012年纽约时报的一篇文章标志着人类社会进入大数据时代,在未来的几十年里,大数据都将会是一个重要都话题。大数据影响着每一个人,并在可以预见的未来继续影响着。大数据冲击着许多主要行业,包括零售业、金融行业、医疗行业等,大数据也在彻底地改变着我们的生活。现在我们就来看看大数据给中国带来的十商业应用场景,未来大数据产业将会是一个万亿市场。 1、智慧城市 如今,世界超过一半的人口生活在城市里,到2050年这一数字会增长到75%。政府需要利用一些技术手段来管理好城市,使城市里的资源得到良好配置。既不出现由于资源配置不平衡而导致的效率低下以及骚乱,又要避免不必要的资源浪费而导致的财政支出过大。大数据作为 ...

    查看全文

  • 数据时代爆发数据垄断的可能性分析

    数据时代爆发数据垄断的可能性分析

    我们知道,大数据已经被不少人定义为科学探索的第四范式、21世纪的新石油。那么作为资源、甚至资本的大数据将由谁主导?能否实现全世界的公平共享?权力的边界在哪里?就是充满悬念的问题。 从目前发展趋势看,少数公司和少数政府凭借对大数据掌握和分析处理的技术优势,正在掌控并垄断信息。如果不加以引导控制的话,未来将可能出现数据垄断和数据寡头。以FACEBOOK为例,2012年FACEBOOK有大约10亿用户,试想,全球10亿人都在同一个社交网络上留下个人信息及活动线索,而这些信息数据化之后都被一家公司掌握……”公司统治世界”的局面就好比把全世界的鸡蛋放进了一只并不坚实的篮子里,一 ...

    查看全文

在线客服
在线客服 X

售前: 点击这里给我发消息
售后: 点击这里给我发消息

电话:18660802028