本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。相关命令可以浏览 https://code.aliyun.com/best-practice/199
20210207 I 基于湖仓一体架构使用 MaxCompute对OSS湖数据分析预测 名词解释 名词解释 数据湖:数据湖是一个集中式存储库,可存储任意规模结构化和非结构化数据,支 持大数据和 AI计算。如开源大数据的 Hadoop HDFS存储系统就是一个标准的数 据湖架构。各大云厂商也有云上数据湖方案,如阿里云 EMR+OSS是基于云上托 管存储...