ETL工具_ETL工具相关产品_解决方案-阿里云

云原生大数据计算服务MaxCompute

阿里云云原生大数据计算服务MaxCompute是面向分析的企业级云数仓，作为一体化大数据智能计算平台ODPS的大规模批量计算引擎，MaxCompute以 Serverless 架构提供快速、全托管的在线数据仓库服务，使您经济高效的分析处理海量数据，进行敏捷的业务洞察。

第二阶段通过内部产品打通在DataWorks进行同步和数据清洗.DataWorks进行ETL和OLAP的数据通过Quick BI产出报表.推荐搭配使用.某天气信息查询软件客户将日志分析业务从云下Hadoop集群迁移到阿里云MaxCompute后，开发效率提升超过5倍，存储和计算费用节省了70%，更高效的赋能其个性化运营策略.日志数据全部通过SQL进行分析，...

来自：云产品

DTS数据同步集成MaxCompute数仓

场景描述本文Step by Step介绍了通过数据传输服务 DTS实现从云数据库RDS到MaxCompute的数据同步集成，并介绍如何使用DTS和 MaxCompute数仓联合实现数据ETL幂等和数据生命周期快速回溯。解决问题 1.实现大数据实时同步集成。 2.实现数据ETL幂等。 3.实现数据生命周期快速回溯。产品列表 MaxCompute 数据传输服务DTS DataWorks 云数据库RDS MySQL 版

传统 ETL工具提供每日增量、每日全量的上传方式，但由于数据库数据的增量上传是通过数据库提供数据变更的日期字段来实现，要求您的数据库有数据变更的日期字段。数据传输服务 DTS数据同步功能通过 binlog实现。对无数据变更日期的表，仍然可以通过 binlog的时间来生成创建/修改时间，兼容性更好，同时使用 DTS提高了数据 ...

来自：最佳实践 | 相关产品：专有网络 VPC,云数据库RDS MySQL 版,数据传输,DataWorks,大数据计算服务 MaxCompute

云原生数据仓库AnalyticDB PostgreSQL版

阿里云MPP架构的云原生数据仓库，可提供PB级海量数据在线/离线分析服务，是面向各行各业的有竞争力的数仓方案，真正做到“人人可用的数据分析服务”。

支持主流BI和ETL工具进行数据工程开发及商业智能搭建；实时数仓，商业智能.支持分布式事务，支持四种标准数据库隔离级别；满足高吞吐在线交易应用场景需求，实现HTAP混合负载.HTAP混合负载.DTS支持关系型数据库、NoSQL、大数据(OLAP)等数据源，集数据迁移、订阅及实时同步功能于一体，能够解决公共云、混合云场景下，远距离...

来自：云产品

智能商业分析 Quick BI

瓴羊智能商业分析 Quick BI 是阿里云用户臻选的数据可视化工具，大幅提升数据分析和报表开发效率，一站式满足企业各种场景的数据分析和决策的诉求。

可按需增购组织管理群工作空间单工作空间多工作空间多工作空间组织管理不支持支持支持权限管理不支持支持支持...ETL)组织管理群工作空间组织管理权限管理统计分析资源包管理开放集成对接钉钉/企微/飞书开放API数据服务第三方报表嵌入传参嵌入自定义组件服务规格阿里云工单系统钉钉大群5*8答疑服务产品选型专业版（企业50人及...

来自：云产品

云数据库 SelectDB 版

云数据库 SelectDB 版是新一代云原生数据仓库 SelectDB 在阿里云上的全托管服务，聚焦于满足企业级大数据分析需求，Apache Doris 2.0 进一步增强数据导入能力，为客户提供极致性能、简单易用的数据分析服务。

提供可视化开发工具，简化数据开发过程。产品功能弹性伸缩如果集群当前的资源配置无法满足业务需求，用户可以随时对集群进行扩缩容，扩缩容过程通常分钟级完成、无需停服。按需启停不需要使用时可停止集群，从而释放计算资源节省成本；需要使用时可启动集群，复用缓存数据，快速响应业务请求。平滑升级内核版本过低可能会...

来自：云产品

实时数仓Hologres

Hologres（原交互式分析）是一站式实时数据仓库引擎，支持海量数据实时写入、实时更新、实时分析，支持标准SQL（兼容PostgreSQL协议），支持PB级数据多维分析（OLAP）与自助分析（Ad Hoc），支持高并发低延迟的在线数据服务（Serving），与MaxCompute、Flink、DataWorks深度融合，提供离在线一体化全栈数仓解决方案。

兼容PostgreSQL生态，提供JDBC/ODBC接口，轻松对接第三方ETL和BI工具，包括QuickBI、DataV、Tableau、帆软等。支持GIS空间数据分析.DataWorks开发集成.与DataWorks深度集成，提供图形化、智能化、一站式的数仓搭建和交互式分析服务工具，支持数据资产、数据血缘、数据实时同步、数据服务等企业级能力.达摩院Proxima向量检索...

来自：云产品

金融智能数仓解决方案

金融智能数仓解决方案是阿里云自研高性能、海量可扩展数据仓库服务、兼容部分 Oracle/Teradata 语法生态，大量应用于阿里巴巴集团内部电商，物流，文娱，广告等业务部门，服务于阿里云的金融、政企、互联网等各行业用户，支持快速构建新一代云化数据仓库服务。

兼容 Greenplum/PostgreSQL 数据库产品生态，可集成数据智能与构建 Dataphin、数据管理 DMS、数据传输 DTS、数据报表 QuikBI 等云产品，同时支持第三方数据开发管理、ETL、BI 报表等工具，满足用户多种业务需求.结合阿里巴巴多年内部应用和数据库的迁移经验，自主研发的应用和数据迁移评估工具 ADAM，能帮助用户最大限度...

| 方案架构 | 方案优势

来自：解决方案

云原生数据湖分析DLA

阿里云云原生数据湖分析是新一代大数据解决方案，采取计算与存储完全分离的架构，支持对象存储(OSS)、RDS(MySQL等)、NoSQL(MongoDB等)数据源的消息实时归档建仓，提供Presto和Spark引擎，满足在线交互式查询、流处理、批处理、机器学习等诉求。内置大量优化+弹性，比开源自建集群最高降低50%+的成本，最快可1分钟级拉起300个计算节点，快速满足业务资源要求。

无基础设施和管理成本，互联网直接访问，开箱即用，按需付费，不需要长期持有分析成本，升级期间对业务影响小，产品迭代敏捷快速.Presto引擎.Presto引擎是数据湖分析基于Presto打造的交互式分析引擎，接入MySQL协议，可使用任何兼容MySQL协议的工具来进行数据分析，适合Adhoc查询、BI分析、轻量级ETL等数据分析场景.Spark...

来自：云产品

基于DataWorks的大数据一站式开发及数据治理

概述基于Dataworks做大数据一站式开发，包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS，使用Hive进行数据分析。通过Dataworks进行数据治理，数据地图查看数据信息和血缘关系，数据质量监控异常和报警。适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理方案优势  大数据一站式开发，完善的数据治理能力。  性能优越：高吞吐，高扩展性。  安全稳定：Exactly-Once，故障自动恢复，资源隔离。  简单易用：SQL语言，在线开发，全面支持UDX。  功能强大：支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能，以及各种流式及静态数据源关联查询。

通过 CADT搭建资源环境本例中，主要阐述基于 Dataworks做大数据一站式开发，包含数据实时采集到 kafka 通过实时计算对数据进行 ETL写入 HDFS，使用 Hive进行数据分析等数据操作，整个过程中使用到通过 VPC、ECS、Flink、EMR（Hadoop集群）、Kafka等资源，本章通过 CADT工具部署资源。本实例架构图:（注：CADT暂不支持...

来自：最佳实践 | 相关产品：块存储,云服务器ECS,E-MapReduce,DataWorks,实时计算,云速搭

城市工业智能解决方案

城市工业智能解决方案是以数据为驱动力，以重点企业的数字化赋能为切入点，以行业大数据平台为线，以区域工业大数据平台为面，在推动传统工业转型发展的同时，培育工业大数据产业生态体系，将城市工业打造成为独具特色的数字经济发展高地。

以数据为驱动力，以重点企业的数字化赋能为切入点，以行业大数据平台为线，以区域工业大数据平台为面，在推动传统工业转型发展的同时，培育工业大数据产业生态体系，将城市工业打造成为独具特色的数字经济发展高地.加速数字化转型.经济效益提升明显.城市工业智能解决方案.ETL/数据建模/数据管理/数据运维.算法开发/分享/...

来自：解决方案

利用交互式分析(Hologres)进行数据查询

场景描述随着收集数据的方式不断丰富，企业信息化程度越来越高，企业掌握的数据量呈TB、 PB或EB级别增长。同时，数据中台的快速推进，使数据应用主要为数据支撑、用户画像、实时圈人及广告精准投放等核心业务服务。高可靠和低延时地数据服务成为企业数字化转型的关键。 Hologres致力于低成本和高性能地大规模计算型存储和强大的查询能力，为您提供海量数据的实时数据仓库解决方案和实时交互式查询服务。解决问题 1.加速查询MaxCompute数据 2.快速搭建实时数据仓库 3.无缝对接主流BI工具产品列表 MaxCompute Hologres 实时计算Flink 专有网络VPC DataWorks DataV

请根据创建项目时选择的 Region以及网络信息进行选择，具体请参见配置 Endpoint。tunnel_endpoint=xxxxxxxxxxx 建议您根据创建项目时选择的 Region 信息来配置客户端中的 end_point 及 tunnel_endpoint参数，否则会出现无法访问等错误。请参见配置 Endpoint填写。如果您使用的是 DataWorks 创建的标准模式下的 MaxCompute ...

来自：最佳实践 | 相关产品：大数据计算服务 MaxCompute,DataV数据可视化,实时计算,Hologres,云速搭CADT

云原生数据仓库AnalyticDB MySQL数据仓库

阿里云云原生数据仓库AnalyticDB MySQL版（简称AnalyticDB）是融合数据库、大数据技术于一体的云原生企业级数据仓库平台。云原生数据仓库AnalyticDB MySQL版支持数据实时写入和同步更新、实时计算和实时服务，可用于构建企业级报表系统、数据仓库和数据服务引擎。

晚上ETL高峰期，准时弹出计算资源，让ETL计算任务稳定运行，低峰期准时释放，降低资源成本.晚上ETL计算高峰.支持数据在表和分区级别分为热数据和冷数据，热数据存储在高性能介质，加快查询计算速度；冷数据存储在便宜的HDD介质上，节约存储成本.冷热数据分层.在建表语句中设置表和分区的冷热属性，数据分别写入到对应的介质...

来自：云产品

游戏数据运营融合分析

场景描述 1.游戏行业有结构化和非结构化数据融合分析需求的客户。 2.游戏行业有数据实时分析需求的客户，无法接受T+1延迟。 3.对数据成本有一定诉求的客户，希望物尽其用尽量优化成本。 4.其他行业有类似需求的客户。方案优势/解决问题 1.秒级实时分析：依托ADB计算密集型实例，秒级监控DAU等数据，为广告投放效果提供有力的在线决策支撑。 2.高效数据融合分析：打通结构化和非结构化数据，支撑产品体验分析；广告买量投放效果实时（分钟级）分析，渠道的评估更准确。 3.低成本：DLA融合冷数据分析+ADB存储密集型温数据分析+ADB计算密集型热数据分析，在满足各种分析场景需求的同时，有效地降低的客户的总体使用成本。 4.学习成本低：DLA和ADB兼容标准SQL语法，无需额外学习其他技术。产品列表 专有网络VPC、负载均衡SLB、NAT网关、弹性公网IP 云服务器ECS、日志服务SLS、对象存储OSS 数据库RDSMySQL、数据传输服务DTS、数据管理DMS 分析型数据库MySQL版ADS 数据湖分析DLA、QuickBI

游戏厂商对于渠道、用户和游戏表现的评估需要更加细化和准确的数据的要求，希望利用优秀的数据分析工具来帮助团队更全面的分析市场和用户的趋势，同时玩家的游戏行为和喜好也在慢慢变化，如何能够及时发现这些变化并针对性地调整产品和游戏设计也是非常重要的，因此提出了如下业务要求：提供全面的游戏运营指标分析功能...

来自：最佳实践 | 相关产品：云数据库RDS MySQL 版,对象存储 OSS,云原生数据仓库AnalyticDB My,数据湖分析,Quick BI

大数据workshop

最佳实践项目实践说明：在项目开始之前请先下载实践相关的 democode，下载地址：https://code.aliyun.com/best-practice/bigDataWorkshop/tree/master 3.1. 基础环境搭建 3.1.1.CADT创建资源本例中，主要阐述大数据一站式开发，包含数据实时采集到 DataHub通过实时计算对数据进行 ETL写入 Hologres，再通过 DataV和 ...

来自：最佳实践 | 相关产品：块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres

金融专属大数据workshop

实践目标学习搭建一个实时数据仓库，掌握数据采集、存储、计算、输出、展示等整个业务流程。整个实时数据仓库系统全部基于阿里云产品进行架构搭建，用户可以掌握并学会运用各个服务组件及各个组件之间如何联动。理解阿里云原生实时离线一体数仓解决方案架构以及掌握交付落地的实践使用方法。前置知识要求熟练掌握SQL语法对大数据体系系统知识有一定的了解

3.1.1.CADT创建资源本例中，主要阐述大数据一站式开发，包含数据实时采集到DataHub通过实时计算对数据进行ETL写入MaxCompute并通过Hologres做离线外表查询加速等，再通过 DataV和Quick做数据展示，整个过程中使用到通过VPC、ECS、RDS、Flink、DataHub、DTS、Hologres、QuickBI和DataV等资源，本章通过CADT工具部署资源。...

来自：最佳实践 | 相关产品：块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres

基于Flink的资讯场景实时数仓

场景描述本实践针对资讯聚合类业务场景，Step by Step介绍如何搭建实时数仓。解决问题 1.如何搭建实时数仓。 2.通过实时计算Flink实现实时ETL和数据流。 3.通过实时计算Flink实现实时数据分析。 4.通过实时计算Flink实现事件触发。产品列表实时计算专有网络VPC 云数据库RDSMySQL版分析型数据库MySQL版消息队列Kafka 对象存储OSS NAT网关 DataV数据可视化

比如日志中的数据，可通过日志采集等工具被实时上报到消息队列 Kafka中；数据库中的数据，可通过数据传输服务 DTS被实时数据同步到消息队列 Kafka中。3.数据加工：消息队列收到的原始数据，往往存在格式不齐或内容不全，需要经过数据清洗（ETL）之后，才能更好的被下游业务使用。而整个 ETL过程，是实时数仓架构设计上...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,NAT网关,云原生数据仓库AnalyticDB My,云速搭CADT

自建Hive数仓迁移到阿里云EMR

场景描述客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统，购买阿里云EMR集群之后，涉及到将数据仓库和Hive元数据的数据库迁移上云。目前主流Hive数据仓库迁移场景为1.x 版本迁移到阿里云EMR(Hive2.x版本），涉及到数据订正更新步骤。解决的问题 Hive数据仓库的数据迁移方案 Hive元数据库的迁移方案 Hive跨版本迁移后的数据订正产品列表 E-MapReduce，VPC，ECS，OSS，VPN网关。

底层数据迁移保存在 HDFS的数据可通过 Hadoop原生的 DistCp工具进行迁移，详细迁移方案请参考：《自建 Hadoop数据迁移到阿里云 EMR》最佳实践（https://www.aliyun.com/acts/best-practice/preview?id=162538）Hive元数据库迁移 Hive元数据信息通常保存在客户自建的 MySQL数据库中，可通过 mysqldump工具将数据库进行...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭

数据库异地灾备

场景描述适用于不满足于单地域，对数据可靠性（RPO）和服务可用性（RTO）要求更高的，希望防范断电、断网等机房故障，抵御地震、台风等自然灾害，具备异地容灾备份恢复能力的客户业务场景。解决问题 1.实时备份，RPO达到秒级 2.表级恢复，故障恢复时间大大缩短 3.长期归档，自动管理备份生命周期 4.异地灾备，构建数据库灾备中心产品列表专有网络VPC 云服务器ECS 弹性公网IP（EIP）负载均衡SLB 云数据库RDSMySQL 数据库备份服务DBS 对象存储服务OSS 数据湖分析服务DLA 数据管理服务DMS 数据传输服务DTS

无需 ETL，就可通过此服务在云上通过标准 JDBC 直接对阿里云 OSS、TableStore、RDS等不同数据源里存储的数据轻松进行查询和分析。DLA 无缝集成各类商业分析工具，提供便捷的数据可视化。详见：https://www.aliyun.com/product/datalakeanalytics DMS：数据管理服务（Data Management Service，简称 DMS）支持 MySQL、SQL ...

来自：最佳实践 | 相关产品：云数据库RDS MySQL 版,对象存储 OSS,数据管理,数据湖分析,数据库备份DBS,云速搭CADT

云数据库OceanBase

云数据库 OceanBase 版是构建在阿里云基础设施上的公有云数据库服务，基于完全自主研发的原生分布式数据库。通过多租户、高压缩存储、多级弹性伸缩、HTAP等能力，在保障数据库高性能的同时，显著降低数据库成本。同时在云上集成了评估、迁移、监控、诊断、备份恢复、运维优化等工具，让数据库管理与运维更简单。

同时在云上集成了评估、迁移、监控、诊断、备份恢复、运维优化等工具，让数据库管理与运维更简单.免费体验开源版.云数据库 OceanBase 版.OceanBase 迁移服务是 OceanBase 为您提供的全流程数据迁移解决方案，全面帮助企业的应用和数据迁移到 OceanBase 上，让更多企业享受分布式数据库的技术.OceanBase 迁移服务能够帮助您...

来自：云产品

RAPIDS加速机器学习

场景描述本方案适用于使用RAPIDS加速库+GPU 云服务器来对机器学习任务或者数据科学任务进行加速的场景。相比CPU，利用 GPU+RAPIDS在某些场景下可以取得非常明显的加速效果。解决问题 1.搭建RAPIDS加速机器学习环境 2.使用容器服务Kubernetes版部署 RAPIDS环境 3.使用NAS存储计算数据产品列表容器服务Kubernetes版 GPU云服务器文件存储NAS

ETL阶段会进行到表关联、分组、聚合、切片等操作，数据格式采用 cuDF库的 DataFrame格式（类似于 pandas的 DataFrame格式）。示例效果如下：•启动Data Conversion 将 DataFrame格式的数据转换为用于 XGBoost训练的 DMatrix格式，每个 worker处理一个 DMatrix对象。示例效果如下：27 文档版本信息：20191209 RAPIDS加速...

来自：最佳实践 | 相关产品：云服务器ECS,文件存储NAS,容器服务 ACK

ETL工具_相关内容

新品推荐