Databricks认为的组织会有的三种高级别大数据需求,收集数据,存储数据,以及使用数据产出可操作的见解。
收集数据
在上图中,收集数据阶段可能由一系列事件或者事务来触发,这些被收集的数据也被称为High flux event data。
存储数据
之后数据必须要被存储起来,不同公司的话会有不同的存储解决方案。
这些存储解决方案可能是以下数种:
对单一业务使用多个不同的数据库一个集中的数据库,比如一个数据仓库(data warehouse)data lake。 data lake现在十分流行因为它可以同时存储非结构和半结构以及结构化数据,也就是解决了我们讨论的唯一可靠来源问题(single source of truth)
使用数据产出可行的见解
最后不能忘记我们解决大数据挑战的目的是为了从问题中获得洞见并做出更明治的决策。为了实现这个目的,我可以使用实时dashboard,周期性报告或者人工智能。