大数据平台三年规划-大数据平台三年规划文档介绍内容-阿里云

Hadoop集群迁移至DataLake集群

背景信息 E-MapReduce（简称EMR）新版控制台是EMR发布的下一代云原生开源大数据平台，为用户提供全新平台体验、全新开发平台、全新资源形态和全新分析场景。新版控制台的功能特点，详情请参见 EMR新版控制台上线公告。EMR on ECS作为EMR...

云产品集成

常见云产品如下：大数据开发治理平台 DataWorks 实时计算 Flink 版数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现前提条件已获取 OceanBase 数据库的基本连接信息，详细步骤请参见获取连接参数。大数据开发治理平台 ...

高效数据治理实施指南

步骤一：明确成本治理重点，规划数据治理工作成本治理工作的起始阶段，通常需要治理工作负责人建立一个治理框架，帮助其了解成本管理的现状，明确阶段性规划里，要治理的重点方向是什么，进而确认如何治理，以及怎样衡量治理的成功或失败...

客户案例

阿里妈妈公司介绍阿里妈妈广告业务主要是一种 P4P（Pay for Performance）形式的广告业务系统，而报表中心作为阿里妈妈向广告主透出广告效果数据的唯一平台，在阿里巴巴大平台丰富多样的商业场景下，为客户提供优质，高效，可靠的数据...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

表设计规范

表数据存储规范按数据层规划数据的生命周期：源表ODS层：每天从业务系统同步过来的数据，全部保留，生命周期定义永久保存。当下游数据受损时，可以从ODS恢复数据。若ODS每天同步过来的是全量表，则可以通过全表拉链的方式来压缩存储。数据...

内置时空数据引擎Ganos

提供拓扑网络路径分析和大规模点云存储与查询支持 Ganos所包含的几何网络数据库引擎支持Node-Edge拓扑网络构建，支持Turn、U-Turn等概念，支持TSP（旅行商问题）、KSP（多条线路最短路径）、TRSP（转向限制的最短路径）等一系列路径规划...

规格及选型

16C128G ESSD云盘 PL2 适合企业级平台建设，适用于高并发场景，大规模企业核心数据平台推荐选择。高性能（基础版）2C8G ESSD云盘 PL0 POC测试。个人学习使用，体验测试产品能力。4C16G ESSD云盘 PL0 ESSD云盘 PL1 适合计算存储均衡场景，...

大数据AI公共数据集分析

教程简介阿里云DataWorks基于多种大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、...

计费逻辑说明

产品类型功能介绍计费项计费说明计费标准参考智能数据建模智能数据建模是DataWorks自研的建模产品，支持数仓规划设计、制定并沉淀企业数据标准、维度建模、数据指标定义，帮助您将建模设计产出的维度表、明细表、应用表、汇总表物化...

Doris概述

统一数仓构建：一个平台满足统一的数据仓库建设需求，简化繁琐的大数据软件栈。基于Doris构建的统一数仓，替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构，架构大大简化。数据湖联邦查询：通过外表的方式联邦分析位于Hive、...

DataWorks各版本详解

专业版基于DataWorks标准版，增加更专业的数据安全功能，同时增强数据治理、数据服务的功能，完善的数据开发与运维功能，提供产品化的数据治理、数据安全解决方案。此版本适合中小型企业使用。企业版基于DataWorks专业版，在该版本上您...

2020年

消费监控告警消费控制 2020年3月更新记录时间特性类别描述产品文档 2020-03-27 支持三种MaxCompute数据类型版本。新说明介绍三种MaxCompute数据类型版本配置、适用场景和支持的数据类型。数据类型版本说明 1.0数据类型版本 2.0数据...

公告

2024年04月16日-Dataphin新版本发布 Dataphin于2024年04月16日发布V3.14版本，本次升级相较于历史版本：新增Python三方包全局管理功能，一次安装多次引用，提升Python任务开发效率。支持页面水印设置功能，支持自定义页面水印内容及设置...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

资源规划及规格选型

每月预估数据增量需要在项目上线两到三个月后，根据每月增量之和除以月数得到。如果还要考虑未来数据中台会承载更多业务、每月数据增量会变大等因素，可以将当前计算得到的每月预估数据增量值乘以倍数。预估计存比。按照项目开发测试阶段、...

产品简介

大数据专家服务大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户...，赋能技术团队具备大数据平台建设、架构设计、AI算法建模以及运维保障能力...

DataWorks V2.0

DataWorks V2.0发布发布版本：DataWorks V2.0 发布时间：2018年7月25日发布范围：华东2区域发布内容：DataWorks V2.0在DataWorks V1.0的基础上，新增业务流程、组件的概念，并完善数据开发体系。DataWorks V2.0支持双工作空间开发，隔离...

术语表

M MapReduce MapReduce是处理数据的一种编程模型，通常用于大规模数据集的并行运算。您可以使用MapReduce提供的接口（Java API）编写MapReduce程序，来处理MaxCompute中的数据。编程思想是将数据的处理方式分为Map（映射）和Reduce（规约）...

基本概念

栅格数据（Raster Data）是将地理空间分割成有规律的网格，每一个网格称为一个单元（像元或像素），并在各单元上赋予相应的属性值来表示实体的一种数据形式。栅格数据通常有两种类型的栅格数据：专题数据和影像数据。专题数据：每个栅格像...

A100使用指南

支持审计5个数据库实例 6,000元/月 72,000元/年高级增强版吞吐量峰值：8,000条SQL/秒 350万/小时入库速率 7亿条在线SQL语句存储 200亿条归档SQL语句存储说明一般可保存三年的审计数据。支持审计10个数据库实例 12,000元/月 144,000元/...

Check节点

策略二：检查目标分区在指定时长是否有更新若Check节点检查到MaxCompute分区表的目标分区在指定时长内未更新，则表示该分区的数据已产出完成，平台即认为MaxCompute分区表数据已可用。FTP文件或OSS文件若Check节点检查到目标FTP文件或OSS...

平台安全诊断

DataWorks的平台安全诊断，为您提供了当前DataWorks工作空间与绑定的引擎在数据传输、存储、运算等过程中，与身份认证、访问权限控制、开发模式等功能相关的安全能力，以及诊断相关安全问题的最佳实践，帮助您及时发现平台的安全隐患，在...

2020年

从RDS PPAS迁移至PolarDB O引擎集群 2020年7月发布SQL Server数据库多库增量迁移功能，可在一个数据迁移任务中增量迁移多个数据库，极大提升了提升迁移效率。从自建SQL Server增量迁移至RDS SQL Server 发布Kafka多Partition（分区）的...

功能发布记录 2022年之前

DataWorks的数据治理中心从全局视角、工作空间视角、个人视角，自动发现并量化平台使用过程中数据存储、任务计算、代码开发、数据质量及数据安全等维度存在的待治理问题，并通过健康分模型进行统计，以治理报告及治理排行榜的形式呈现治理...

功能发布记录（2022年）

英国（伦敦），美国（硅谷），美国（弗吉尼亚），阿联酋（迪拜）所有DataWorks用户数据集成概述 DataWorks支持EMR新版数据湖DataLake DataWorks支持基于EMR计算引擎新版数据湖DataLake，实现基于EMR引擎的数据集成、数据建模、数据开发...

功能特性

数据迁移数据迁移功能帮助您实现同构或异构数据源之间的数据迁移，适用于数据上云迁移、阿里云内部跨实例数据迁移、数据库拆分扩容等业务场景功能集功能功能描述参考文档同构迁移逻辑迁移支持同构数据库间的数据迁移。自建MySQL...

快速体验

大数据存储与计算：云原生大数据计算服务 MaxCompute（必选）、实时数仓Hologres（可选）、开源大数据平台E-MapReduce（可选），您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度：大数据开发治理平台 DataWorks数据...

什么是EMR on ECS

与自建Hadoop集群对比开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项阿里云EMR 自建Hadoop集群成本支持按量和包年包月付费方式，集群资源支持灵活调整，数据分层存储，资源使用率高。无额外软件License费用。需...

Kyuubi概述

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

数据导入概览

使用DataWorks数据集成同步数据到GDB DataWorks 是阿里云上的一站式大数据智能云研发平台，其中数据集成服务支持导出数据到GDB，您也可以使用平台完成数据计算、筛选、转换等处理再同步到GDB。DataWorks的GDB数据源底层由GdbWriter插件提供...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

E-MapReduce弹性低成本离线大数据分析

离线大数据分析概述主流的三大分布式计算框架系统分别为Hadoop、Spark和Storm：Hadoop可以运用在很多商业应用系统，可以轻松集成结构化、半结构化以及非结构化数据集。Spark采用了内存计算，允许数据载入内存作反复查询，融合数据仓库、流...

准备工作

开通企业数据智能平台企业数据智能平台默认为关闭状态，使用前需要前往 AnalyticDB PostgreSQL版控制台开通。登录云原生数据仓库AnalyticDB PostgreSQL版控制台。...单击左侧导航栏中的 数据平台。单击开通数据中台。

概述

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

大数据平台三年规划

新品推荐