云原生企业级数据湖

备案控制台

云原生企业级数据湖

基于对象存储 OSS 构建的数据湖，可对接多种数据输入方式，存储任何规模的结构化、半结构化、非结构化数据，打破数据湖孤岛。无缝对接多种数据分析产品，对存储在对象存储 OSS 中的数据直接进行大数据分析，洞察业务价值。同时，数据湖提供多种存储类型的冷热分层转换能力，通过数据全生命周期管理优化存储成本。

一步步跟随方案教程，带你快速上手，进行方案部署。

方案介绍

云原生企业级数据湖

对象存储 OSS 作为数据湖统一存储，可以存储来自于不同数据源的各类型数据。通过多种存储类型实现数据冷热分层，可无缝对接 EMR 、PAI 等大数据分析和训练引擎。结合高性能文件存储 CPFS，实现 OSS 与 CPFS 数据双向流通，同时，热点训练数据以透明方式同步到 CPFS，通过 CPFS 的文件语义与机器学习平台 PAI 对接，满足高性能训练场景需求。

解决问题：数据孤岛林立

不同业务部门由于数据规模、数据类型不同而出现不同的数据孤岛，难以从统一位置访问和管理所有数据，数据无法实现有效共享。

解决问题：数据存储成本高

传统存储方案中不同类型数据往往需要不同的存储系统，同时，数据缺乏有效的生命周期管理策略，导致数据存储成本高。

解决问题：数据分析难，安全性低

传统方案无法有效对接数据分析平台，缺乏体系化的安全管理机制，无法实现数据加密和访问控制，难以保障数据的安全性和隐私性。

相关产品

对象存储 OSS 开源大数据平台 E-MapReduce 文件存储 CPFS 机器学习平台 PAI

方案优势

一份存储、多种引擎

各种类型的数据以集中方式统一存储在对象存储 OSS，解决数据孤岛，避免数据分散在多种不同的系统，极大降低运维管理难度，基于生命周期管理，优化 TCO。无缝对接多种计算引擎，在需要分析阶段，再通过数据引擎进行处理。

数据无需处理、直接存储

支持结构化、半结构化、非结构化等多种类型数据，数据可以按照原始产生的形态直接存储到数据湖，支持多种数据输入源对接，提供便捷的数据接入和数据消费通道。

计算与存储解耦合

提供更灵活的系统架构设计，让计算、存储资源具备更好的可扩展性，对 Hadoop 生态体系有良好的支持能力，通过细粒度的权限控制、数据加密和日志记录与审计等机制保障数据安全。

应用场景

基于开源生态构建大数据分析

支撑 Hadoop 开源生态构建大数据分析方案，解决了传统 Hadoop 在扩展性、运维模式、成本优化方面的难题，覆盖离线分析、交互式查询、流式处理等多个数据管理场景，支持多种数据通道，全面覆盖日志、消息、数据库、HDFS 各种数据源接入。

海量数据冷热分层

大数据场景中有大量数据累积，并且数据随着时间推移访问热度会大幅降低。冷热分层能力将不同访问热度的数据存储在不同类型，解决了数据分散在各个集群，需要在不同存储系统中反复拷贝等运维困扰，优化长期存储成本。

基于数据湖的人工智能

通过数据湖支撑人工智能从训练数据存储、预处理、特征提取、训练、模型部署和推理多个重要过程，充分发挥机器学习平台的技术优势，凭借高吞吐能力，进一步训练速度提升，为人工智能算法提供有效数据支撑。

方案部署

01部署准备

开通OSS、EMR、机器学习平台PAI、文件存储CPFS服务。

02创建资源

创建OSS存储桶（Bucket）和EMR集群，并完成Bucket和EMR集群对应配置，创建PAI和对应的AI工作空间。

03准备数据

将需要分析的数据上传到对应的Bucket，配置对应的EMR或PAI作业/训练任务和Bucket中上传数据对应。

04运行作业

在EMR集群上运行对应的分析作业，分析存储在OSS中数据，并查看运行状态。

05下载结果

在EMR集群或PAI运行对应的分析作业/训练，分析存储在OSS中数据，并查看运行状态。

一键部署手动部署