大数据数据中台托管-大数据数据中台托管文档介绍内容-阿里云

什么是DataWorks

从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手，不断提升数据应用效率，助力产业数字化升级。产品架构 DataWorks十多年...

数据服务

背景信息数据服务提供了数据中台建设过程中的数据服务化能力，面向数据开发者提供覆盖各个加工阶段统一体验的、便捷的数据查询转服务、服务管理、服务运维能力；面向数据资产管理者提供服务的统计分析、服务用量统计分析，实现数据中台...

功能简介

在数据中台建设过程中，搭建核心处理平台，并根据相关标准要求，将源数据或治理后的数据，按照“全面、高效、统筹”的共享原则，“低延时”、“精准化”地传递给用户，方便更多应用消费数据，实现数据价值。协同管控各种组织机构，为智慧化...

空间数据（邀测中）

数据处理支持倾斜数据处理能力，可以将OSGD格式数据转化为S3M数据，再将处理后的数据添加到数据管理中，以便被用于数仓建设、标签管理等数据中台任务。支持对数据处理任务进行管理。支持查看数据处理任务详情，包括任务的基本信息、处理的...

功能简介

数据处理支持倾斜数据处理能力，可以将OSGB格式数据转化为S3M数据，再将处理后的数据添加到数据管理中，以便被用于数仓建设、标签管理等数据中台任务。支持对数据处理任务进行管理。支持查看数据处理任务详情，包括任务的基本信息、处理的...

统一服务

在数据中台建设过程中，搭建核心处理平台，并根据相关标准要求，将源数据或治理后的数据，按照“全面、高效、统筹”的共享原则，“低延时”、“精准化”的传递给用户，方便更多应用消费数据，实现数据价值。协同管控各种组织机构，为智慧化...

功能简介

在数据中台建设过程中，搭建核心处理平台，并根据相关标准要求，将源数据或治理后的数据，按照“全面、高效、统筹”的共享原则，“低延时”、“精准化”地传递给用户，方便更多应用消费数据，实现数据价值。协同管控各种组织机构，为智慧化...

应用场景

构建数据中台，行业领域模型快速沉淀场景：快速构建数据仓库，有效治理数据质量，实现政企客户各部门数据的业务协同和共享。痛点：以政务服务为例，政务服务部门众多，业务系统复杂、流程长，数据来源多且更新频率高；数据口径标准、数据...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

步骤二：规划数仓

数仓规划是基于Dataphin建设数据中台的第一步，同时也是数据体系的顶层设计中至关重要的一步。在开始数据开发前，需要完成数据仓库的规划，包括定义数据板块、项目、数据源、计算源和统计周期。本文将指导您完成本教程的规划数仓。背景信息...

步骤二：规划数仓

数仓规划是基于Dataphin建设数据中台的第一步，同时也是数据体系的顶层设计中至关重要的一步。在开始数据开发前，需要完成数据仓库的规划，包括定义数据板块、项目、数据源、计算源和统计周期。本文将指导您完成本教程的规划数仓。背景信息...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

创建HBase数据源

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您...

数据服务概述

数据服务（OneService）是基于Dataphin建设数据中台的最后一步。数据服务作为统一的数据服务出口，实现了数据的统一市场化管理，有效地降低数据开放门槛的同时，保障了数据开放的安全。前提条件已购买数据服务增值服务，开通Dataphin ...

客户案例

打造离线实时一体化数据中台，构建统一、完整的大数据应用链路，服务内部几大核心业务。全链路数据治理提高数据可用性，让数据在中台进行自由流动，保证数据准确、准时、一致，成本削减1亿元。提高业务迭代效率，数据更新频率由1天变成10...

手动添加数据源

您可以通过数据库备份DBS 的手动添加数据源功能，将不同环境的数据库添加至数据库备份DBS 中，便于后续对数据源进行管理与备份。费用说明添加数据源操作不会产生费用，只有在添加数据源后开启备份才会产生费用。如何开启备份，请参见 ...

回收站列表

您在治理工作台中删除数据表的时间即为回收站中的回收日期。操作日期清除数据表的日期。回收状态数据表的回收状态。清除表清除后的数据表不支持再次恢复，请您谨慎操作。在回收站列表页面，单击需要删除表所在行的操作列下图标。...

回收站列表

您在治理工作台中删除数据表的时间即为回收站中的回收日期。操作日期清除数据表的日期。回收状态数据表的回收状态。清除表清除后的数据表不支持再次恢复，请您谨慎操作。在回收站列表页面，单击需要删除表所在行的操作列下图标。...

清除数据

您可以在控制台清除云原生内存数据库Tair 实例中的所有过期数据或所有数据。操作步骤说明在参数设置中禁用 FLUSHALL 命令不会影响控制台中清除数据功能。访问 Tair实例列表，在上方选择地域，然后单击目标实例ID。在实例信息页面...

清除数据

您可以在控制台清除云数据库 Redis 版实例中的所有过期数据或所有数据。操作步骤说明在参数设置中禁用 FLUSHALL 命令不会影响控制台中清除数据功能。访问 Redis实例列表，在上方选择地域，然后单击目标实例ID。在实例信息页面，...

将云消息队列 Kafka 版的数据迁移至MaxCompute

在数加（一站式大数据平台）中，DataWorks控制台即为MaxCompute控制台。MaxCompute和DataWorks一起向用户提供完善的数据处理和数仓管理能力，以及SQL、MR、Graph等多种经典的分布式计算模型，能够更快速地解决用户海量数据计算问题，有效...

技术架构选型

本教程中使用阿里云大数据产品Dataphin配合MaxCompute，完成整体的数据建模和研发流程。完整的技术架构如下图所示。其中，Dataphin的数据集成及同步负责完成源业务系统数据引入。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

索引管理

手动关闭某一索引的云端写入托管，数据将直接写入集群中。请在关闭前确认该索引是否持续有数据写入，以及集群的负载情况，否则可能出现集群负载高的风险。业务上建议使用数据流（Data Stream）和索引生命周期管理（ILM）滚动策略，实现...

基于Indexing Service实现数据流管理

参数说明仅查看托管中的索引系统默认展示集群中的所有索引（不包括系统索引），选择仅查看托管中的索引后，系统仅展示托管中的索引，帮助您快速获取处于托管的数据。云端托管索引总大小当前时刻，正处于云端写入托管中的索引总大小。...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

查看与减少数据备份

本文介绍如何在DBS中查看备份数据大小，同时提供减少备份的方法。查看备份大小备份大小=全量数据备份的大小+增量数据备份的大小登录 DBS控制台。单击左侧导航栏中的备份计划，然后在上方选择目标地域。单击目标备份计划名称，进入备份...

多账号统一管理

便于企业有效地执行数据安全管理任务，如自动发现敏感数据、数据分类分级、以及对潜在安全威胁的监测和报警。本文介绍如何使用多账号统一管理功能。使用须知使用多账号统一管理功能的阿里云账号和被管理的阿里云账号必须同属于一个资源...

基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储...

对于不带分区的Hudi格式，您也可使用单表离线同步方案，但无需在DataWorks数据开发模块创建离线同步任务，直接在DLF控制台中创建关系数据库全量入湖类型的任务即可，具体操作可参考 OSS数据进行格式转换入湖。单表离线同步在DataWorks ...

数据流管理

当正在写数据的后备索引关闭写入托管能力，待触发下次Rollover，最新创建的后备索引将处于写入托管中，可以在控制台数据流下查看最新的后备索引。业务上建议配置索引生命周期管理（ILM）滚动策略，实现云端托管空间最优化。如果不配置，...

数据表-数据概况

指标说明指标名称指标说明指标来源说明表存储大小当前表中存储的所有数据大小如托管Location给DLF，来源于对OSS数据的统计；否则来源于E-MapReduce引擎stats数据；表文件总数当前表中存储的所有文件数量总和如托管Location给DLF，...

基本介绍

背景信息云数据库HBase增强版是由云原生多模数据库Lindorm宽表引擎提供的、完全兼容HBase的云上托管数据库，从2011年开始云数据库HBase增强版正式承载阿里内部业务的海量数据实时存储需求，支撑服务了淘宝、支付宝、菜鸟、优酷、高德等...

Github实时数据同步与分析

在弹出的试用云原生大数据计算服务 MaxCompute 产品的面板中配置开通地域为华东2（上海），其他参数保持默认。勾选服务协议，单击立即试用，并根据页面提示完成试用申请。申请DataWorks独享数据集成资源组免费试用进入 DataWorks按量...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

SQL可视化图表

饼图饼图适用于展示数据中各项的大小与各项总和的比例。图例数据要素扇区标签扇区角度说明单击图标，支持根据数据要素进行升序、降序、不排序。扇区标签和扇区角度同时配置了排序时，以扇区标签排序为准。单击图标，可选择数据聚合...

SQL可视化图表

饼图饼图适用于展示数据中各项的大小与各项总和的比例。图例数据要素扇区标签扇区角度说明单击图标，支持根据数据要素进行升序、降序、不排序。扇区标签和扇区角度同时配置了排序时，以扇区标签排序为准。单击图标，可选择数据聚合...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

EMR+DLF数据湖解决方案

步骤三：初始化数据初始化数据一般常见的几种情况如下：已有大数据集群，需要进行数据迁移，此时可以考虑通过 Jindo DistCp 工具将老集群的数据迁移到OSS中。从RDS/MySQL/Kafka 等业务系统接入数据，此时可以考虑通过实时计算Flink实现...

常见问题概览

连接访问打开SQLConsole页面时提示“未获取到数据库相关信息”的报错 MySQL中出现“Too many connections”报错新增ECS自建数据库提示“因白名单问题无法连接数据库”账号或权限如何在DMS控制台中查看数据库对应的DBA 在DMS控制台添加...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

大数据数据中台托管

新品推荐