云原生数据湖分析
播放视频
云原生数据湖分析(Data Lake Analytics,简称数据湖分析) 采用弹性架构,提供一站式的数据湖分析与计算服务,支持 ETL、机器学习、流、交互式分析;可以分析与集成对象存储(OSS)、RDS(MySQL等)、NoSQL(MongoDB等)数据源;功能包括数据入湖,元数据管理与自动发现,支持双引擎:Presto、Spark。

产品优势

兼容Presto、Spark
兼容开源Presto、Spark的语法和多个版本,快速上手。
开箱即用
Serverless形态,无需购买任何资源,互联网直接访问,降低运维成本,免去大数据库系统构建烦扰。
多源数据实时入湖
OSS数据直接分析,构建大规模分析数据集,延迟大约为10分钟。
海量算力即时扩容
集群按需快速扩展,1分钟最快弹出300个节点,灵活应对业务变化。

产品功能

丰富的产品系列,全面覆盖多种场景需求采用Serverless形态,支持Presto和Spark两种引擎,集群分钟级弹性扩缩容,相比线下部署机房成本更低
Serverless形态数据湖分析采用Serverless形态,无基础设施和管理成本,互联网直接访问,开箱即用,按需付费,不需要长期持有分析成本,升级期间对业务影响小,产品迭代敏捷快速。
Presto引擎Presto引擎是数据湖分析基于Presto打造的交互式分析引擎,接入MySQL协议,可使用任何兼容MySQL协议的工具来进行数据分析,适合Adhoc查询、BI分析、轻量级ETL等数据分析场景。
Spark引擎Spark引擎是基于开源Spark打造的服务化的大数据分析与计算服务,兼容开源Spark语法、所有的API和多个版本,支持SQL语言和DataFrame代码。适合大量数据清洗,Streaming,编写Java、Scala、Python等SQL难表达的场景。
灵活的计费方式,满足不同成本需求CU时资源包、CU版本同时支持Presto与Spark引擎,扫描量版本仅支持Presto引擎
CU时资源包采用按量付费+资源包的付费模式,适用于业务量波动较大且频繁场景。用资源包抵扣数据湖分析所有按量付费实例(Presto和Spark引擎实例)消费,使用期间按量付费实例灵活升降配,不用考虑升配后剩余预付费时长的差价,资源包不使用不抵扣,相比包年包月和按量付费更灵活易用,性价比高。了解详情>
CU版本支持数据湖分析Presto和Spark引擎实例,适用于查询频率高、查询数据量较大的场景。按CPU和内存规格进行收费,如1核4GB为1CU,单价为0.35元/小时。支持包年包月和按量付费两种计费模式。了解详情>
扫描量版本仅支持数据湖分析Presto引擎实例,适用于查询频率低、查询数据量较小的场景。按扫描的字节(Byte)进行收费,如扫描每TB数据的费用为28元。支持流量包(包年包月)和按扫描量付费(按量付费)两种计费模式。了解详情>
多项企业级能力,涵盖各类业务需求拥有优越弹性,支持元数据发现,支持多源一键数据实时入湖分析等功能,直接使用SQL即可分析OSS等数十种源数据
优越弹性数据湖分析Spark引擎支持Job级别的弹性,可设置长期保有资源(MIN)、弹性资源上限(MAX),MIN最小为0,实例可自动根据业务波峰波谷在MIN 与 MAX 之间弹性扩缩容,无需提前预留资源,降低成本的同时保持业务稳定运行;同时支持秒级拉起,目前每分钟可以拉起500~1000个计算节点,可以快速响应业务资源需求。
元信息发现可以自动为OSS上面的数据文件创建及更新数据湖元数据,方便分析和计算。具有自动探索文件数据字段及类型、自动映射目录和分区、自动感知新增列及分区、自动对文件进行分组建表的能力。
多源数据实时入湖分析支持构建实时数据湖,延迟大约为10分钟;无需ETL,可使用SQL跨OSS、关系数据库(PostgreSQL、MySQL等)、NoSQL(TableStore等)多种数据源分析,屏蔽各种数据源访问的差异性;分析环境与生产库隔离,分析过程不会对数据源端的业务系统产生造成影响。
完善的生态,学习使用成本低数据库式体验、多种GUI工具、数据SaaS可视化工具支持,学习使用成本低
GUI工具丰富支持Microstrategy、MySQL Workbench、DBeaver等多种MySQL GUI管理工具。
多种可视化工具支持与QuickBI、Tableau、DataV等BI工具集成度高、兼容性好。
兼容标准SQL兼容SQL:2003标准,支持标准JDBC/ODBC协议,丰富的内置函数支持,数据库般的使用体验。

应用场景

云原生数据湖分析架构
Lakehouse实时入湖
数据建仓成本优化
日志转存合规与分析
采用云原生架构,大幅降低运维工作量
Serverless Spark版本解决如下场景业务挑战:需要自定义Code,SQL很难表达的,例如编写Java、Scala、Python或者SQL带条件的,大规模的清洗,例如1天清洗OSS 1TB~1PB的数据;需要算法支持,需要支持Streaming。
Serverless Presto版本解决如下场景业务挑战:快速搭建报表,例如QuickBI加速,友盟返还数据分析;支持轻量级的ETL,简单利用SQL就可以实现快速的清洗。
能够提供
在开源Apache Spark基础上研发,兼容Spark、pySpark生态,开源算法库等。
在开源Presto基础上研发,兼容Presto生态。
Serverless Spark拥有良好的弹性能力,支持Job级别的弹性。可设置长期保有资源(MIN)、弹性资源上限(MAX),MIN最小为0。数据湖分析实例自动根据业务波峰波谷在MIN 与 MAX 之间弹性扩缩容,无需提前预留资源,降低成本的同时保持业务稳定运行。
进行数据ETL,入湖建仓。
Serverless Presto 提供内置cache,分时弹性、分区投影,帮助用户快速搭建BI报表。
推荐搭配产品
异构数据实时分析,为数据驱动提速
该场景需要对多种类型的数据源进行联合查询和实时分析,传统方案过程繁琐费时。云原生数据湖提供提供多种数据源之间联邦分析能力,屏蔽各种数据源访问的差异性,快速挖掘数据价值。
能够提供
生产库与分析环境隔离,保持生产库更轻量,性能更好,历史数据在分析环境分析,对生产环境不造成影响。
支持构建实时数据湖,支持DB的CDC与消息数据(如Kafka)入湖,构建大规模的可以增删改查的数据集,延迟大约为10分钟。
支持联合查询,支持通过标准JDBC的方式,对散落在各种类型的数据源比如MySQL,SQL Server,PostgreSQL、OSS的数据实现聚合查询。
兼容MySQL协议,无需ETL,可使用SQL直接分析OSS等数十种源数据,快速低成本开启大数据分析。
推荐搭配产品
海量数据分析慢,自建数仓成本高
直接使用生产库对海量数据分析,不仅会对线上业务产生影响,还可能出现超时,查询失败的现象;但自建数据仓库又需投入大量的软硬件资源、研发成本及运维成本。
能够提供
支持RDS一键建仓功能,海量数据快速查询分析。通过控制台的简单配置,即可完成数据同步导入OSS,将原来占用RDS计算资源的部分业务,迁移到数据湖分析+OSS上来,降低了对RDS业务库的压力。
丰富的生态支持,支持Microstrategy、MySQL Workbench等多种GUI管理工具,支持QuickBI、Tableau、DataV等多种可视化工具。
兼容MySQL协议,基于SQL分析,没有学习成本,屏蔽了底层技术的复杂性,运维成本大幅降低。
即需即用,准备成本低,业务峰值前后可对实例扩缩容,响应快速,完全契合业务潮汐带来的资源波动。
推荐搭配产品
应用访问全站加速,行为日志分析能力轻松拥有
云原生数据湖分析提供数据采集、快速查询分析及存储的全链路支持,全站加速、日志存档分析一步到位,实现数据驱动业务增长。
能够提供
日志返还全链路产品化,无需关注中间ETL过程,直接拿到清洗后的结果日志表。
快速搭建报表,例如分析错误码分布、分析用户访问链路,实现链路可追溯。
满足日志合规需求,满足上级主管部门关于日志数据保存时长的合规需求。
推荐搭配产品

客户案例

加和科技
加和科技通过数据湖分析+OSS的超强分析能力来应对业务波峰波谷。同时,数据湖分析提供的Serverless的弹性服务为按需收费,不需要购买固定的资源,无需专门运维人员,代码通用,无额外学习成本,相对性价比提升30%;临时业务承接率提升200%-300%,平均任务耗时降低67%。
易点天下
云原生数据湖分析帮助易点天下在数据采集、存储和分析的全链路中,实现了时间、成本、安全、计算效率等方面的改善,使得综合运行成本降低大约 50%。支持直接通过SQL语句分析OSS等数十种源数据,大幅提升数据查询分析能力,助力业务发展。

产品动态

2018-05-11 新产品
阿里云Data Lake Analytics 公测发布
查看详情
2018-08-10 新功能/规格
Data Lake Analytics支持回流多数据源
查看详情
2018-08-17 新功能/规格
Data Lake Analytics支持回流多数据源
查看详情
2018-10-19 新地域/新可用区
Data Lake Analytics华南region正式开服
查看详情
2018-11-01 新地域/新可用区
阿里云Data Lake Analytics英国region正式开服
查看详情
2018-11-14 新产品
阿里云Data Lake Analytics正式商业化
查看详情
2019-01-15 新功能/规格
Data Lake Analytics 发布建表向导功能,支持OSS数据源
查看详情
2019-01-18 新功能/规格
阿里云Data Lake Analytics针对MongoDB数据源的json_extract 函数
查看详情
2019-02-01 新功能/规格
Data Lake Analytics 支持MongoDB Connector
查看详情
2019-03-15 新功能/规格
Data Lake Analytics接入DataWorks
查看详情
2019-03-15 新功能/规格
Data Lake Analytics 支持Redis Connector
查看详情
2019-03-29 新功能/规格
Data Lake Analytics接入MNS和ONS消息系统
查看详情
2019-04-15 新地域/新可用区
Data Lake Analytics 新开通美国(弗吉尼亚)region
查看详情
2019-05-15 新功能/规格
Data Lake Analytics 支持POLARDB Connector
查看详情
2019-06-17 新功能/规格
Data Lake Analytics 支持MaxCompute Connector
查看详情
2019-07-12 新功能/规格
Data Lake Analytics 支持访问表格存储(Table Store)的多元索引表
查看详情
2019-08-30 新功能/规格
阿里云Data Lake Analytics增加IP与国家、省份、城市对应函数
查看详情
2019-09-02 新功能/规格
Data Lake Analytics一键建仓功能,快速搭建基于RDS的数据仓库系统
查看详情
2019-11-15 新地域/新可用区
Data Lake Analytics新开通印度(孟买)、美国(硅谷)、日本(东京)等region
查看详情
2019-12-30 新功能/规格
数据湖分析全面升级支持Presto分析引擎
查看详情
2019-12-31 新功能/规格
Data Lake Analytics支撑友盟发布“数据开放U-DOP”整体解决方案
查看详情
2020-02-13 新功能/规格
Data Lake Analytics发布SQL补全、控制台缓存等多项优化,极大的提升了用户的控制台
查看详情
2020-02-24 功能优化
针对OSS多版本性能优化及控制台提示信息优化
查看详情
2020-03-13 功能优化
优化 DROP TABLE 分区数多时的整体性能
查看详情
2020-03-13 功能优化
SQL执行过程中遇到gz格式空文件将直接跳过
查看详情
2020-04-02 新功能/规格
数据湖分析支持AnalyticDB for PostgreSQL数据源
查看详情
2020-04-02 新功能/规格
数据湖分析支持用户将数据写入MaxCompute
查看详情
2020-04-02 新功能/规格
数据湖分析支持分析Actiontrail日志
查看详情
2020-04-16 新功能/规格
数据湖分析支持View创建、删除、授权
查看详情
2020-04-16 新功能/规格
数据湖分析支持用户修改Column name、type、comment
查看详情
2020-04-23 新功能/规格
数据湖分析支持OSS用户不同文件格式的转换
查看详情
2020-04-24 新功能/规格
数据湖分析发布Serverless Spark计算引擎
查看详情
2020-05-15 新功能/规格
数据湖分析支持Mongodb只读实例
查看详情
2020-06-22 新功能/规格
数据湖分析支持分析MaxCompute外部表数据
查看详情
2020-06-22 新功能/规格
数据湖分析支持分析Druid数据源
查看详情
2020-06-22 新功能/规格
数据湖分析支持分析ElasticSearch数据源
查看详情
2020-08-14 新功能/规格
数据湖分析支持数据湖管理
查看详情
2020-08-28 新功能/规格
数据湖分析发布 SQL(兼容Presto) CU版
查看详情
2020-08-28 新功能/规格
RAM子用户可以提交Serverless Spark作业
查看详情
2020-09-04 新功能/规格
云原生数据湖分析元数据爬取支持NGINX日志自动探索
查看详情
2020-09-10 新功能/规格
云原生数据湖分析支持CU版包年包月
查看详情
2020-09-18 新功能/规格
云原生数据湖分析引擎SQL(Presto)支持访问用户自建Hive
查看详情
2020-09-25 新功能/规格
云原生数据湖分析Spark引擎支持访问用户Hive
查看详情
2020-09-25 新功能/规格
云原生数据湖分析Spark引擎支持访问用户Hadoop
查看详情
2020-09-25 新功能/规格
云原生数据湖分析Spark引擎支持访问用户Hbase
查看详情
2020-10-30 新功能/规格
云原生数据湖分析支持Kudu数据源
查看详情
2020-12-18 新功能/规格
云原生数据湖分析元数据爬取支持TableStore数据源
查看详情
2020-12-18 新功能/规格
云原生数据湖分析元数据发现支持SLS投递到OSS的数据
查看详情
2021-02-05 新功能/规格
云原生数据湖分析推出基于Alluxio的数据湖分析加速功能
查看详情
2021-02-10 新功能/规格
云原生数据湖分析发布支持OSS元数据发现数仓模式
查看详情
2021-04-28 新功能/规格
云原生数据湖分析支持Lakehouse入湖,帮助用户将RDS、PolarDB业务数据入湖
查看详情
2021-04-28 新功能/规格
云原生数据湖分析Spark引擎支持在控制台以SparkSQL方式提交查询
查看详情
2021-04-28 新功能/规格
云原生数据湖分析Spark引擎支持对接用户自建Jupyter
查看详情
2021-05-21 新功能/规格
云原生数据湖分析Presto引擎CU版支持监控CPU、内存等参数指标
查看详情
2021-06-30 新功能/规格
DLA Lakehouse支持读取RDS MySQL、PolarDB MySQL从库,简化入湖建仓
查看详情
2021-08-09 新功能/规格
DLA Lakehouse支持kafka准实时入湖建仓,可用于行为日志等场景的查询分析
查看详情
查看全部日志

文档与工具