大数据是指传统数据挖掘和处理技术无法揭示底层数据的见解和含义时使用的过程,关系数据库引擎无法处理非结构化或时间敏感或非常大的数据。
大数据是指传统数据挖掘和处理技术无法揭示底层数据的见解和含义时使用的过程。关系数据库引擎无法处理非结构化或时间敏感或非常大的数据。这种类型的数据需要一种称为大数据的不同处理方法,它在易于使用的硬件上使用大量并行性。
很简单,大数据反映了我们生活的变化世界。变化越多,变化被捕获并记录为数据越多。以天气为例。对于天气预报员来说,世界各地收集的有关当地情况的数据量很大。从逻辑上讲,局部环境决定区域效应和区域效应决定全球影响是有道理的,但它可能恰恰相反。无论如何,这种天气数据反映了大数据的属性,其中大量数据需要实时处理,并且大量输入可以是机器生成,个人观察或外部力量如太阳斑。
处理这样的信息说明了为什么大数据变得如此重要:
现在收集的大多数数据都是非结构化的,需要与传统关系数据库中的数据不同的存储和处理。可用的计算能力飞速发展,这意味着有更多机会处理大数据。互联网使数据民主化,稳定增加可用数据,同时产生越来越多的原始数据。
原始形式的数据没有价值。需要处理数据才有价值。然而,这里存在大数据的固有问题。处理从原生对象格式到可用洞察力的数据是否值得付出巨大的资本成本?或者是否存在太多具有未知值的数据来证明使用大数据工具处理它的赌博是正确的?我们大多数人都同意能够预测天气会有价值,问题是这个价值是否会超过将所有实时数据压缩成可以依赖的天气报告的成本。