云原生企业级数据湖

方案介绍
云原生企业级数据湖

对象存储 OSS 作为数据湖统一存储,可以存储来自于不同数据源的各类型数据。 通过多种存储类型实现数据冷热分层,可无缝对接 EMR 、PAI 等大数据分析和训练引擎。结合高性能文件存储 CPFS,实现 OSS 与 CPFS 数据双向流通,同时,热点训练数据以透明方式同步到 CPFS,通过 CPFS 的文件语义与机器学习平台 PAI 对接,满足高性能训练场景需求。

解决问题:数据孤岛林立

不同业务部门由于数据规模、数据类型不同而出现不同的数据孤岛,难以从统一位置访问和管理所有数据,数据无法实现有效共享。

解决问题:数据存储成本高

传统存储方案中不同类型数据往往需要不同的存储系统,同时,数据缺乏有效的生命周期管理策略,导致数据存储成本高。

解决问题:数据分析难,安全性低

传统方案无法有效对接数据分析平台,缺乏体系化的安全管理机制,无法实现数据加密和访问控制,难以保障数据的安全性和隐私性。

方案优势
一份存储、多种引擎
各种类型的数据以集中方式统一存储在对象存储 OSS,解决数据孤岛,避免数据分散在多种不同的系统,极大降低运维管理难度,基于生命周期管理,优化 TCO。无缝对接多种计算引擎,在需要分析阶段,再通过数据引擎进行处理。
数据无需处理、直接存储
支持结构化、半结构化、非结构化等多种类型数据,数据可以按照原始产生的形态直接存储到数据湖,支持多种数据输入源对接,提供便捷的数据接入和数据消费通道。
计算与存储解耦合
提供更灵活的系统架构设计,让计算、存储资源具备更好的可扩展性,对 Hadoop 生态体系有良好的支持能力,通过细粒度的权限控制、数据加密和日志记录与审计等机制保障数据安全。
应用场景
基于开源生态构建大数据分析
支撑 Hadoop 开源生态构建大数据分析方案,解决了传统 Hadoop 在扩展性、运维模式、成本优化方面的难题,覆盖离线分析、交互式查询、流式处理等多个数据管理场景,支持多种数据通道,全面覆盖日志、消息、数据库、HDFS 各种数据源接入。
海量数据冷热分层
大数据场景中有大量数据累积,并且数据随着时间推移访问热度会大幅降低。冷热分层能力将不同访问热度的数据存储在不同类型,解决了数据分散在各个集群,需要在不同存储系统中反复拷贝等运维困扰,优化长期存储成本。
基于数据湖的人工智能
通过数据湖支撑人工智能从训练数据存储、预处理、特征提取、训练、模型部署和推理多个重要过程,充分发挥机器学习平台的技术优势,凭借高吞吐能力,进一步训练速度提升,为人工智能算法提供有效数据支撑。
方案部署
01部署准备
开通OSS、EMR、机器学习平台PAI、文件存储CPFS服务。
02创建资源
创建OSS存储桶(Bucket)和EMR集群, 并完成Bucket和EMR集群对应配置,创建PAI和对应的AI工作空间。
03准备数据
将需要分析的数据上传到对应的Bucket,配置对应的EMR或PAI作业/训练任务和Bucket中上传数据对应。
04运行作业
在EMR集群上运行对应的分析作业,分析存储在OSS中数据,并查看运行状态。
05下载结果
在EMR集群或PAI运行对应的分析作业/训练,分析存储在OSS中数据,并查看运行状态。
跨阿里云账号采集日志
跨阿里云账号采集日志可以实现多个账号间的日志共享和集中管理,降低了管理成本和风险,提高了日志数据的安全性和可靠性。同时,跨账号日志采集还可以满足多租户场景下的日志管理需求,提高了系统的可扩展性。
应用日志数据归档
应用日志数据归档方案为企业提供云上日志数据的存储成本优化。提供了访问日志数据采集、自动压缩、持久化存储,满足企业的网站访问日志数据的归档需求。具有低成本、免运维、弹性扩容的优势。