数据仓库概念_数据仓库概念相关产品

基于湖<em>仓</em>一体架构使用MaxCompute对OSS湖<em>数据</em>分析预测

本篇最佳实践先创建EMR集群作为数据湖对象，Hive元数据存储在DLF，外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通，实现元数据统一。最后通过一个毒蘑菇的训练和预测demo，演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。相关命令可以浏览 https://code.aliyun.com/best-practice/199

数据仓库：数据仓库概念最早来源于数据库领域，主要处理面向数据的复杂查询和分析场景。数据仓库是来自一个或多个不同源的集成数据的中央存储库，经过数据清洗和转化，将当前和历史数据存储在一起，用于为整个企业的员工创建分析报告。阿里云 MaxCompute就是数据仓库和云原生技术相结合的云数仓产品。EMR：阿里云 E-...

来自：最佳实践相关产品：对象存储 OSS,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,数据湖构建

数据管理与服务

数据管理与服务作为阿里云产品六大版块之一，面向不同业务场景，阿里云提供数据存储、分析、应用等全链路能力，满足企业客户全方位的数据处理需求，实现计算和存储分离、资源解耦、数据移动减化，用以满足行业快速发展的需求和趋势，利用数据重塑其业务。

图计算及其应用.DataWorks智能数据建模沉淀阿里巴巴数据中台建模方法论，以维度建模为基础，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让数据仓库的建设向规范化，可持续发展方向演进。通过本书，你可以学习到：1.数据建模理论与规范 2.菜鸟、大淘系数据建模实践 3.工业、汽车...

| 产品列表 | 产品资讯 | 客户案例 | 电子书

来自：云产品

智能数据建设与治理Dataphin

Dataphin遵循阿里巴巴集团多年实战沉淀的大数据建设OneData体系（OneModel、OneID、OneService），集产品、技术、方法论于一体，一站式地为您提供集数据引入、规范定义、智能建模研发、数据萃取、数据资产管理、数据服务等的全链路智能数据构建及管理服务。助您打造属于自己的标准统一、资产化、服务化和闭环自优化的智能数据体系，驱动创新。

客户应用案例.立即开通(全托管版).立即开通(半托管版).立即开通(全托管版).立即开通(半托管版).<查看全部产品.Dataphin是阿里巴巴...可视化数据仓库模型构建、物理任务全托管生产，分钟级自动化代码生成.数据资产化管理，全链路数据追踪和分析，提升数据价值.数据资产管理.自动聚合主题数据，所见即所得，高度简化查询与分析.

来自：云产品

数据安全解决方案

数据是企业的核心资产，如何保护企业的云上数据，是每个企业管理者都应当重视的课题。在云平台提供更为安全便捷的数据保护能力的同时，阿里云根据自身多年的经验积累，结合大量云上客户的最佳实践，提供了一套完整的数据安全解决方案，帮助企业提升云上数据风险防御能力，实现企业核心及敏感数据安全可控。

数据不再单纯存储在数据库中，各类数据仓库、中台和非结构化文件、缓存都在企业中扮演着重要角色。分散数据的统一治理和权责定义，对企业提出了要求.数据资产盘点、权责明确与分类分级标准.数据安全风险评估是企业信息系统建设的根基，从多个维度进行安全评估可以达到“事半功倍”的效果。在分析的过程中结合数据生命周期各...

来自：解决方案

Spark on ECI大数据分析

场景描述方案优势 1.计算引擎弹性扩缩容，兼顾资源弹性与计算资源成本优化。 2.计算与存储分离架构，结合阿里云原生云存储产品，海量数据湖优势。 3.Kubernetes原生的调度性能优势，提升在大规模分析作业时的分析性能优势分。 4.集群资源隔离和按需分配。解决问题 1.计算资源弹性能力不足，计算资源成本管控能力欠缺. 2.集群资源调度能力和隔离能力不足。 3.计算与存储无法分离，大数据量分析时出现数据存储资源瓶颈。 4.Spark submit方式提交分析作业参数支持有限等缺点。产品列表容器服务Kubernetes版(ACK) 弹性容器实例(ECI) 文件存储HDFS 对象存储OSS 专有网络VPC 容器镜像服务ACR

Spark on Kubernetes解决方案的用户对 Spark大数据分析平台计算资源成本控制考虑的用户需要有灵活可扩展计算平台资源弹性及管控的用户名词解释文件存储 HDFS：阿里云文件存储 HDFS是面向阿里云 ECS实例及容器服务等计算资源的文件存储服务，允许用户像在 Hadoop分布式文件系统中管理和访问数据，无需对数据分析应用做...

来自：最佳实践 | 相关产品：专有网络 VPC,对象存储 OSS,容器服务 ACK,弹性容器实例 ECI,文件存储HDFS

云原生数据库

PolarDB是阿里云自研的云原生数据库，在存储计算分离架构下，利用了软硬件结合的优势，为用户提供秒级弹性、高性能、海量存储、安全可靠的数据库服务。100%兼容MySQL和PostgreSQL生态，支持分布式扩展，高度兼容Oracle语法。

高度兼容MySQL，打通大数据生态，通过将数据实时同步至云原生数据仓库 AnalyticDB，实现对海量数据的实时分析，助力业务智能化.云数据库RDS MySQL.数据传输DTS.云原生数据仓库ADB MySQL.推荐搭配产品.交通物流：每秒万级并发.在线业务超高并发，轻松解决.电商行业中如大型促销秒杀场景对系统整体访问压力巨大。PolarDB ...

来自：云产品

阿里云最佳实践离线大数据workshop

本最佳实践，首先搭建一个简化的电商 demo 系统，然后为此 demo 系统构建一套离线大数据分析系统。实践目标 1. 学习搭建一个离线大数据分析系统，学习从数据采集到数据存储和业务分析的业务流程。 2. 整个离线大数据分析系统全部基于阿里云产品进行搭建，学习掌运用各个服务组件及各个组件之间如何联动。背景知识要求熟练掌握 SQL 语法对大数据体系系统知识有一定的了解

MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。详见：https://help.aliyun.com/product/27797.html  Dataworks：DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引文档版本：20210802（发布...

来自：最佳实践 | 相关产品：云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,日志服务（SLS）,大数据计算服务 MaxCompute,DataV数据可视化,数据总线,Quick BI,云速搭

SLS多云日志采集、处理及分析

场景描述从第三方云平台或线下IDC服务器上采集日志写入到阿里云日志服务，通过日志服务进行数据分析，帮助提升运维、运营效率，建立DT 时代海量日志处理能力。针对未使用其他日志采集服务的用户，推荐在他云或线下服务器安装logtail采集并使用 Https安全传输；针对已使用其他日志采集工具并且已有日志服务需要继续服务的情况，可以通过Log producer SDK写入日志服务。解决问题 1.第三方云平台或线下IDC客户需要使用阿里云日志服务生态的用户。 2.第三方云平台或线下IDC服务器已有完整日志采集、处理及分析的用户。产品列表 E-MapReduce 专有网络VPC 云服务器ECS 日志服务LOG DCDN

提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。更多信息，请参见专有 E-MapReduce简介（https://www.aliyun.com/product/emapreduce）。全站加速 DCDN：旨在提升动静态资源混合站点的访问体验，支持静态资源边缘缓存，动态内容最优路由回源传输，...

来自：最佳实践 | 相关产品：云服务器ECS,日志服务（SLS）,NAT网关,E-MapReduce,全站加速 DCDN,云速搭CADT

EMR集群安全认证和授权管理

场景描述阿里云EMR服务Kafka和Hadoop安全集群使用Kerberos进行用户安全认证，通过Apache Ranger服务进行访问授权管理。本最佳实践中以 Apache Web服务器日志为例，演示基于Kafka 和Hadoop的生态组件构建日志大数据仓库，并介绍在整个数据流程中，如何通过Kerberos和 Ranger进行认证和授权的相关配置。解决问题 1.创建基于Kerberos的EMR Kafka和 Hadoop集群。 2.EMR服务的Kafka和Hadoop集群中 Kerberos相关配置和使用方法。 3.Ranger中添加Kafka、HDFS、Hive和 Hbase服务和访问策略。 4.Flume中和Kafka、HDFS相关的安全配置。产品列表：E-MapReduce、专有网络VPC、云服务器ECS、云数据库RDS版

提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。详情请查看 www.aliyun.com/product/emapreduce Kerberos：Kerberos是一种网络身份验证协议，它旨在通过使用密钥加密为客户端/服务器应用程序提供强身份验证。它提供了网络上的身份...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,E-MapReduce

云基础产品与基础设施

云基础产品与基础设施作为阿里云产品六大版块之一，主要包含弹性计算、存储、网络、安全、云原生应用平台以及无影和基础设施类产品，向客户提供高度自动化的标准化产品对网络功能、计算机（虚拟或专用硬件）和数据存储空间进行访问，同时支持灵活扩展，可以直接使用自助服务界面。

通过阿里云文件存储CPFS和对象存储OSS数据湖存储及数据自由流动解决方案，满足从海量数据采集到清洗、标注、训练到归档的数据自动化，提供了自动驾驶研发云的统一数据平台，极大提升了研发效率.文件存储 CPFS.对象存储 OSS.网络安全升级支持IPV6.杭州悦数科技有限公司与阿里云计算巢达成合作，NebulaGraph 作为首款图数据库...

| 产品列表 | 产品资讯 | 客户案例 | 电子书

来自：云产品

混合云自有K8S弹性使用ECI

场景描述本文介绍线下IDC与云端通过专线构建混合云架构，自有K8S利用虚拟节点弹性调用ECI承载业务高峰期资源需求的最佳实践。解决问题混合云环境下，自有K8S集群注册至ACK，实现云端纳管。纳管K8S集群部署Virtual Node，使集群具备ECI资源调度能力。在以上环境中部署Web及离线作业应用，并使用ECI资源作为弹性资源池满足业务波峰需求。产品列表云服务器ECS 云架构设计工具CADT 专有网络VPC 访问控制RAM 云企业网CEN 弹性容器实例ECI Nat网关NAT 容器镜像服务ACR 负载均衡SLB 容器服务Kubernetes版ACK 弹性公网IPEIP

注：实际当扩展 WordPress Pod实例时，需要使用统一的持久化存储来保证数据一致性。本例中重点介绍 ECI的资源使用，故此处简化略去。步骤6 完成以上修改后，在 namespace blog下创建 WordPress应用。文档版本：20210520 49 混合云 IDC自有 K8S弹性使用 ECI ECI使用示例步骤7 创建完成后，点击返回箭头确认应用状态。文档...

来自：最佳实践 | 相关产品：块存储,专有网络 VPC,云服务器ECS,负载均衡 SLB,容器服务 ACK,访问控制,NAT网关,云企业网,容器镜像服务 ACR,弹性容器实例 ECI

CDH迁移升级CDP最佳实践

当前 CDH 免费版停止下载，终止服务，针对需要企业版服务能力并且CDH 升级过程对业务影响较小的客户，通过安装新的 CDP 集群，将现有数据拷贝至新集群，然后将新集群切换为生产集群，升级过程没有数据丢失风险，停机时间较短，适合大部分互联网客户升级使用。

构造 Impala测试数据由于 Impala不支持 date类型数据，所以讲原始 date数据转化为 varchar类型的数据。Alter table call_center change column cc_rec_start_date cc_rec_start_date varchar(10);Alter table call_center change column cc_rec_end_date cc_rec_end_date varchar(10);Alter table date_dim change column...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,云速搭

基于链路追踪+ECI的流量洪峰应对

云原生技术已经为越来越多的互联网客户接受，对于在线教育、互动娱乐、电商等类型的客户会由于业务的原因存在突增业务流量，因此对于系统的稳定性非常关注，结合阿里云的容器服务、链路追踪、弹性容器ECI等产品，帮助客户业务实现容器化改造，并且方便发现系统应用架构中的瓶颈等问题，实现系统高弹性的同时优化客户的云资源使用成本。 l 方案优势ￚ支持分布式追踪、调用链分析、DB调用分析、链路拓扑分析、业务指标统计等系统链路调用分析。ￚ运维研发效率提高，链路追踪服务端全托管，免运维。ￚ链路追踪的应用调用链分析能力结合ECI高弹性能力，提升应用系统在洪峰流量冲击下的稳定性。ￚ链路追踪接入方便，ECI POD弹性伸缩，节省用户运维成本和云资源使用成本。ￚ结合SLS Ingress可以基于应用前端访问性能指标做弹性伸缩，更丰富的云原生弹性能力。

文档版本：20201222 9 基于链路追踪+ECI的应用高可用弹性实践应用部署环境变量 SQL_ENVIRONMENT配置 mysql的访问地址，按照 1.3章节创建的数据库服务访问地址进行配置，如下图所示：环境变量 TRACE_ENDPOINT配置链路跟踪接入点地址，获取方式如下：a.登录链路跟踪控制台（https://tracing.console.aliyun.com/）b.获取到...

来自：最佳实践 | 相关产品：容器服务 ACK,日志服务（SLS）,性能测试 PTS,容器镜像服务 ACR,弹性容器实例 ECI

ACK容器平台集群安全控制

场景描述本方案实践主要是通过一些实践示例来介绍用户对于在阿里云上使用Kubernetes集群服务的容器平台安全管控的实践验证与使用建议。方案优势容器集群部署快捷授权与安全策略配置方便丰富的安全控制实践介绍解决问题容器集群API Server的安全访问控制容器服务多租户场景下的授权管理容器中的敏感信息数据的存储容器服务集群安全策略配置管理产品列表容器服务Kubernetes版负载均衡SLB 专有网络VPC 访问控制RAM

文档版本：20220207 43 ACK容器平台集群安全控制最佳实践 Kubernetes集群敏感信息防护 4.Kubernetes集群敏感信息防护 4.1.Kubernetes的 Secret概念在容器配置时有时需要包含一些敏感数据，例如证书和私钥，需要确保其安全性。为了存储与分发此类信息；Secret的使用方式可以为：将 Secret作为环境变量传递给容器将 Secret...

来自：最佳实践 | 相关产品：专有网络 VPC,负载均衡 SLB,容器服务 ACK,访问控制,云速搭

云原生数据仓库AnalyticDB MySQL数据仓库

阿里云云原生数据仓库AnalyticDB MySQL版（简称AnalyticDB）是融合数据库、大数据技术于一体的云原生企业级数据仓库平台。云原生数据仓库AnalyticDB MySQL版支持数据实时写入和同步更新、实时计算和实时服务，可用于构建企业级报表系统、数据仓库和数据服务引擎。

通过简单几步配置即可将RDS、PolarDB 或者日志服务中某个日志库中的数据快速同步到云原生数据仓库AnalyticDB MySQL版集群中.将RDS和PolarDB的多个数据库实例一键配置DTS同步链路.数据库数据接入.配置SLS数据同步链路，将日志数据快速接入.日志数据接入.AnalyticDB MySQL使用文档.快速上手AnalyticDB MySQL.查看API使用文档....

来自：云产品

云原生数据仓库AnalyticDB PostgreSQL版

阿里云MPP架构的云原生数据仓库，可提供PB级海量数据在线/离线分析服务，是面向各行各业的有竞争力的数仓方案，真正做到“人人可用的数据分析服务”。

用户现有的OLTP数据库实例，包括 RDS MySQL，PostgreSQL，或传统数据库实例 Oracle，SQL Server等，数据可以通过数据传输服务 DTS，数据集成服务 Dataworks 等实时同步到云原生数据仓库AnalyticDB PostgreSQL版，构筑可线性扩展的在线企业数据仓库服务。同时可以结合 Dataworks 的 ETL 调度功能，基于 AnalyticDB for ...

来自：云产品

自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察

自建Hive<em>数据仓库</em>跨版本迁移到阿里云Databricks数据洞察

场景描述客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统，购买阿里云Databricks数据洞察集群之后，涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。方案优势 1. 全托管Spark集群免运维，节省人力成本。 2. Databricks数据洞察与阿里云其他产品（OSS、RDS、MaxCompute、EMR）进行深度整合，支持以这些产品为数据源的输入和输出。 3. 使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。解决问题 1. Hive数仓数据迁移OSS方案。 2. Hive元数据库迁移阿里云RDS方案。 3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。

自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察业务架构场景描述客户在 IDC或者公有云环境自建 Hadoop集群构建数据仓库和分析系统，购买阿里云 Databricks数据洞察集群之后，涉及到数仓数据和元数据的迁移以及 Hive版本的订正更新。方案优势 1.全托管 Spark集群免运维，节省人力成本。2.Databricks数据洞察...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,对象存储 OSS,文件存储HDFS,spark

游戏数据运营融合分析

场景描述 1.游戏行业有结构化和非结构化数据融合分析需求的客户。 2.游戏行业有数据实时分析需求的客户，无法接受T+1延迟。 3.对数据成本有一定诉求的客户，希望物尽其用尽量优化成本。 4.其他行业有类似需求的客户。方案优势/解决问题 1.秒级实时分析：依托ADB计算密集型实例，秒级监控DAU等数据，为广告投放效果提供有力的在线决策支撑。 2.高效数据融合分析：打通结构化和非结构化数据，支撑产品体验分析；广告买量投放效果实时（分钟级）分析，渠道的评估更准确。 3.低成本：DLA融合冷数据分析+ADB存储密集型温数据分析+ADB计算密集型热数据分析，在满足各种分析场景需求的同时，有效地降低的客户的总体使用成本。 4.学习成本低：DLA和ADB兼容标准SQL语法，无需额外学习其他技术。产品列表 专有网络VPC、负载均衡SLB、NAT网关、弹性公网IP 云服务器ECS、日志服务SLS、对象存储OSS 数据库RDSMySQL、数据传输服务DTS、数据管理DMS 分析型数据库MySQL版ADS 数据湖分析DLA、QuickBI

更多信息，请参见：help.aliyun.com/document_detail/32321.html AnalyticDB（简称 ADB）：分析型数据库 MySQL版（AnalyticDB for MySQL）是一种高并发低延时的 PB 级实时数据仓库，全面兼容 MySQL 协议以及 SQL:2003 语法标准，可以毫秒级针对万亿级数据进行即时的多维分析透视和业务探索。更多信息，请参见：help.aliyun...

来自：最佳实践 | 相关产品：云数据库RDS MySQL 版,对象存储 OSS,云原生数据仓库AnalyticDB My,数据湖分析,Quick BI

在线教育流量洪峰

1. 通过Tair缓存的性能增强型解决高并发读的性能问题，通过持久内存型解决大并发写性能及数据可靠性问题。 2. PolarDB作为主数据库保存业务的交易数据，通过弹性能力和并发SQL解决性能瓶颈。 3. ADB+QuickBI提供的数据仓库方案通过分时弹性能力和实时业务展现能力。

TPC-H提供测试用数据模型和测试数据，MySQL提供客户端连接 PolarDB进行操作。cd/root/2.18.0_rc2/dbgen/mysql-h-u test001-p PolarDB URL在页面获取：u 步骤2 登录数据库并执行语句 use tpch;source dss.ddl 文档版本：20210120 25 在线教育流量洪峰最佳实践主数据库大流量方案在数据库页面可以看到表已经创建。步骤3 ...

来自：最佳实践 | 相关产品：云数据库 Redis 版,云数据库PolarDB,云原生数据仓库AnalyticDB My,Quick BI

云速搭部署ADB应用最佳实践

本实践通过云速搭实现一个云原生数据仓库AnalyticDB MySQL版的产品实例。

已开通以下服务：ￚ专有网络 VPC ￚ云速搭 CADT ￚ云原生数据仓库 ADB 文档版本：20211115 2 云速搭部署ADB应用产品介绍产品介绍云速搭 CADT：是一款为上云应用提供自助式云架构管理的产品，显著地降低应用云上管理的难度和时间成本。本产品提供丰富的预制应用架构模板，同时也支持自助拖拽方式定义应用云上架构；...

来自：最佳实践 | 相关产品：专有网络 VPC,云原生数据仓库AnalyticDB My,云速搭CADT

数据仓库概念_相关内容

新品推荐