数据湖是一个存储库,可将数据的近似精确副本或精确副本存储在同一位置。在需要一个大型整体存储库来管理其数据的企业中,数据湖已经越来越普遍。与数据库相比,它们的价格也更低。

数据湖可让您以原生格式保存大量数据,方便您的顶级分析师在传统数据存储(比如数据仓库)以外,独立于任何记录系统(针对给定数据元素的权威数据源名称),来钻研其细化和分析技能。如果您想要让您最优秀的分析师继续磨练他们的技能并探索分析数据的新方法,那么您就需要一个数据湖。

数据湖既需要持续维护,也需要针对数据的访问和使用制定一个计划。如果维护不当,您的数据就可能会沦为一堆垃圾,无法访问、难以操作、价格高昂而且毫无用处。用户无法访问的数据湖,就成了"数据沼泽"。

大型企业都会设有多个业务部门(BU),每个都有特殊的数据需求。为了分析,每个业务部门都要竞相争取获得数据和基础架构,这就是对资源的争夺。但数据湖无法解决这个问题。您需要的,是具备数据共享环境的多租户工作负载隔离。那又意味着什么呢?

简单而言,在这种解决方案中,通过对数据分析工具进行容器化或虚拟化,您的企业可以只用处理少部分可以在各个业务部门之间共享的副本,而不用在每个业务部门需要访问数据时都制定完整数据副本(通过管理编写脚本来复制数据并使其全部工作来完成)。