大企业数据-大企业数据文档介绍内容-阿里云

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

如何选择产品类型

已经创建成功的集群，您可通过 CDP企业数据云控制台-集群管理查看某个集群对应的产品类型。产品类型对比您可以通过下述对比项，根据自己的业务需求选择CDP的产品类型。对比项基础版专业版适用场景现代数据仓库准实时分析流式处理和...

数据使用诊断

安全检测维度安全检测项检测对象检测方式敏感数据保护数据分级分类说明数据分级分类是一切敏感数据防护的开始，DataWorks支持管理员对本企业数据进行敏感级别划分。数据保护伞服务此安全检测项为您检测是否已在数据保护伞设置分级...

新建数据字典

操作步骤登录企业数据智能平台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。说明若您已在资产加工页面，请跳过“单击资产加工”的操作。在左侧导航栏，单击图标，选择字段标准...

概述

通过DTS提供的数据同步功能，可以轻松实现数据的流转，将企业数据集中分析。本文以PolarDB for MySQL数据源为例，详细为您介绍如何通过DTS将PolarDB数据同步至分析型数据库MySQL版。前提条件参照以下步骤，在PolarDB中准备好测试数据。...

新建数据建模基础信息

操作步骤登录企业数据智能平台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。说明若您已在资产加工页面，请跳过“单击资产加工”的操作。在左侧导航栏，单击图标，选择通用设置>...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

数据标准建模

操作步骤登录企业数据智能平台。在页面左上角，选择>协同。在顶部菜单栏，单击图标，选择快速入门工作组。在左侧导航栏，单击图标。单击字段标准设计。物理化数据字典，操作步骤如下：在左侧导航栏中，将鼠标悬停至数据字典管理，...

公开与隐藏数据表资产

操作步骤登录企业数据智能平台。在页面左上角，单击图标，选择运营。在顶部菜单栏，单击资产管理。在左侧菜单栏，选择系统资产管理>数据表管理，进入数据表资产管理页面。可选：可通过多种方式筛选资产，以便快速定位目标资产。关键字...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

新建数据元

操作步骤登录企业数据智能平台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。说明若您已在资产加工页面，请跳过“单击资产加工”的操作。在左侧导航栏，单击图标，选择字段标准...

新增实时任务

操作步骤登录企业数据智能平台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。在左侧导航栏，单击图标，将鼠标悬停在实时数据同步上，单击图标。在实时数据同步页面右上角，单击 ...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

DMS支持的数据库

关系型数据库 MySQL SQL Server PostgreSQL MariaDB OceanBase MySQL模式 OceanBase Oracle模式 OceanBase ODP Oracle DB2 达梦数据库 OpenGauss 数据仓库 ClickHouse SelectDB NoSQL数据库 Redis MongoDB 大数据 Hive 录入他云/自建数据库...

功能简介

资产注册资产注册功能是 企业数据智能平台资产管理的基础，可快速锁定待管理数据资产的范围。针对支持管理的数据表类型，实现资产信息注册自动化。在工作组中注册存储计算资源后，系统自动执行元数据信息扫描，并完成数据资产运营，为...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有...说明目前使用DDM进行数据建模可以进行逻辑建模和物理建模，但物理建模仅支持MaxCompute和Hive两种大数据引擎，不支持自定义数据源类型。

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

主备方案介绍

云数据库HBase存储海量大数据，在业务场景中往往承载着重要数据，为保障数据的高可用性和安全性，云数据库HBase提供了主备双活和主备容灾特性。本文介绍云数据库HBase的主备双活和主备容灾特性功能。使用场景主备双活：大数据量随机读响应...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 StarRocks 支持不支持 Hudi 支持支持 Doris 支持不支持 GreenPlum 支持支持 TDengine ...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

轨迹层

数据分级：根据数据中的 value 字段值大小划分（自然分割）成2~7个数据大小级别，解决 value 值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

什么是备份数据量

本文介绍数据库备份DBS中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份DBS业务场景下，含有常见以下几个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念说明数据库...

轨迹层

数据分级：根据数据中的value字段值大小划分（自然分割）成2~7个数据大小级别，解决value值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。单击 ...

创建GreenPlum数据源

背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、...

准备数据源和计算源

准备数据源 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型及操作指导，请参见 Dataphin支持的数据源。重要确定业务数据源类型后，在Dataphin创建...

准备数据源和计算源

准备数据源 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型及操作指导，请参见 Dataphin支持的数据源。重要确定业务数据源类型后，在Dataphin创建...

创建GreenPlum数据源

背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、...

实验介绍

涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集，加工，质量监控，与数据可视化展现，您需提前开通该服务。详情请参见开通DataWorks服务。云原生大数据计算服务MaxCompute 实现底层加工...

散点层

数据分级：根据数据中的value字段值大小划分（自然分割）成2~7个数据大小级别，解决value值相差太大导致的渲染问题。散点贴图：散点层贴图样式，可黏贴贴图URL链接获取。散点大小（从小到大）：单击右侧的或图标，添加或删除一个散点大小...

数据导入概览

使用DataWorks数据集成同步数据到GDB DataWorks 是阿里云上的一站式大数据智能云研发平台，其中数据集成服务支持导出数据到GDB，您也可以使用平台完成数据计算、筛选、转换等处理再同步到GDB。DataWorks的GDB数据源底层由GdbWriter插件提供...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka至湖仓版（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS至湖仓版（推荐）大数据 Hive 数据迁移 Hive数据导入相关文档 AnalyticDB...

快速体验

涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、加工、质量监控，以及数据可视化展现，您需提前开通该服务。详情请参见开通DataWorks服务。云原生大数据计算服务MaxCompute 实现底层加工...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

数据地图概述

数据地图是在元数据基础上提供的企业数据目录管理模块，涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。数据地图可以帮助您更好地查找、理解和使用数据。元数据采集与接入 MaxCompute数据如果您使用了...

数据库导出

当您需要进行数据库备份、导出数据库表进行数据分析等操作，您可使用数据管理DMS 的数据导出功能，该功能可通过提交工单的方式导出数据库。前提条件数据库类型如下：MySQL系列：自建MySQL、RDS MySQL、PolarDB MySQL版、AnalyticDB ...

大企业数据

新品推荐