企业用什么收集大数据?

苗易博苗易博最佳答案最佳答案

这个问题有点宽泛,我按照自己的理解稍微解释一下。(尽量简练) 数据采集的渠道和类型很多,不同的渠道和类型对数据的质量控制要求不一样。比如你从淘宝上看了一本书,淘宝会记录下你的行为,这本书的数据就采集自淘宝;比如你在京东上也看了同一本书,不久亚马逊有这本书的销售信息了,那么这本书的数据可能同时采集自京东和亚马逊。这种通过大量数据的整合来获取单一源数据不可能做到100%精准,会有一定的误差。但是一般情况这种大流量场景下的数据采集,只要大体了解这些数据是准确的概率很高,或者可以人工介入进一步核实。

再比如说你有百度账号搜索过“如何在一个月内瘦40斤”,百度会根据你的IP地址、登陆时间等线索将之和你之前搜索过的其他数据关联起来,如果你之前曾经多次搜索过“减肥食谱”、“健身计划”等等相关信息,那么综合各种数据,他们就可以比较准确的分析出你的身高体重指数(BMI),进而判断你是偏胖还是偏瘦,以及给予针对性的瘦身建议。这里面涉及的数据来自许多个不同的源头,百度依靠自己对数据的分析和处理,把这些零散的数据利用起来并赋予其新的含义——这就是大数据的价值。

当然,大数据的价值并不仅仅局限于数据分析和挖掘。如果能把数据收集起来,不管是不是大数据,如果能应用到正确的场景,同样能有很大的价值。比如现在有许多APP都会采集用户的地点信息(经常用于推送附近的事件),如果你不想让别人知道你每天在干什么,那你就不要拿着GPS开着定位功能到处溜达;如果你想让自己关机的手机也能被别人找到,那就把手机扔了算了。

柏昕柏昕优质答主

收集大数据的工具有:

1、Hadoop。HADOOP提供了存储和处理大数据的框架,利用简单的编程模型,能够在集群中计算机(普通服务器机器)上分布式存储海量数据和处理海量数据,速度快且可靠。它解决了海量数据的存储及海量数据的计算问题,是大数据的基石,也是大据技术的一个生态系统。

2、Hbase。HADOOP诞生于2006年2月,是在HADOOP之上开源的、分布式、面向列式存储的NoSQL数据库,是一个适合于非结构化数据存储的数据库,HBASE模型提供了对大数据动态评估和查询的能力。

3、MapReduce。MapReduce为大规模数据处理提供了一个共享的框架,它运行在一组普通计算机上,但需要依赖云计算的分布式支持来实现。MapReduce使用简化的并行编程模型,来处理和生成大数据集,它使用存储在其内的大型集群的并行计算框架,通过数据源提取海量数据到大数据计算的输入,实现大数据的分布式处理。

我来回答
请发表正能量的言论,文明评论!