数据信息大数据-数据信息大数据文档介绍内容-阿里云

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

使用DMS和DG管理本地或第三方云数据库

页签名称参数名称说明基本信息数据来源选择数据库实例的来源。此处选择本地/他云数据库。数据库类型选择数据库实例的类型。实例地区选择数据库网关所在的地域。网关ID 选择数据库网关，如您还未创建数据库网关，可以单击点此添加...

编辑数据集

背景信息数据集管理面板中已存在数据集且需要重新编辑修改该数据集内容。操作步骤登录 DataV控制台。选择我的数据页签，在左侧列表中单击数据集管理。在数据集管理页面，将鼠标移至页面内某个需要修改的数据集上，单击左侧的图标。...

步骤二：规划数仓

背景信息数据板块：数据板块是逻辑空间的重要组成部分，是基于业务特征划分的命名空间。本教程以 dataphin_tutorial 为例，作为数据板块的命名空间。计算源：为数据的处理提供计算及存储资源。项目：项目是Dataphin的基本组织单元，是进行...

步骤二：规划数仓

背景信息数据板块：数据板块是逻辑空间的重要组成部分，是基于业务特征划分的命名空间。本教程以 dataphin_tutorial 为例，作为数据板块的命名空间。计算源：为数据的处理提供计算及存储资源。项目：项目是Dataphin的基本组织单元，是进行...

数据标准概述

背景信息数据标准目标是为业务、技术和管理提供服务和支持。数据标准管理的过程就是对数据以及数据的属性信息的标准化定义和应用的过程。数据标准的定义必须符合公司的业务应用和管理需求，定义过程中需要参考国际标准、国家标准、...

数据标准概述

背景信息数据标准目标是为业务、技术和管理提供服务和支持。数据标准管理的过程就是对数据以及数据的属性信息的标准化定义和应用的过程。数据标准的定义必须符合公司的业务应用和管理需求，定义过程中需要参考国际标准、国家标准、...

使用DMS和DG管理本地或他云数据库

页签名称参数名称说明基本信息数据库类型选择数据库实例的类型。实例地区选择数据库网关所在的地域。网关ID 选择数据库网关，如您还未创建数据库网关，可以单击点此添加数据库网关创建。数据库地址输入目标数据库的内网地址。数据...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

数据变更最佳实践

批量和实时导入数据批量导入：适用于大数据量导入的场景，导入过程中可以查询旧数据，导入操作完成后一键切换新数据。导入失败时，支持回滚新数据，不影响查询旧数据。例如，从MaxCompute、OSS中导入数据到 AnalyticDB MySQL版时，推荐...

管理数据集成任务

背景信息数据集成任务支持的管理操作及对应的影响请参见下表。操作影响停止数据集成任务数据集成任务将转变为已暂停状态，暂停调度该任务。说明处于该状态的任务，可执行恢复数据集成任务，让任务继续运行。恢复数据集成任务数据...

数据脱敏

背景信息数据库审计系统提供10条内置的数据脱敏规则，并默认启用所有内置规则。您执行审计日志查询操作时，在展示查询结果前，数据库审计系统会自动匹配已开启的所有数据脱敏规则，匹配命中的数据以*（星号）掩码展示。新增、启用、禁用、...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

导出数据

数据水印：是指将标识信息通过一定方式嵌入到数据中，该水印信息数据使用者难以察觉。说明建议导出的数据超过200条时使用数据水印嵌入。未开通敏感数据保护的数据库实例，不可使用数据水印。文件水印：是指将标识信息通过一定方式嵌入到...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

概述

如果使用自建开源大数据生态体系，例如Hive、Spark等，需要专门的大数据工程师来操作和运维，且操作流程也不像使用MySQL一样简单，成本极高。解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB...

新建数据处理任务

背景信息数据处理支持以下数据格式的输入和输出：类型输入格式输出格式倾斜数据 OSGB S3M、3DTiles 地形数据 GeoTIFF QUANTIZED_MESH 三维模型 FBX、GLTF S3M、3DTiles 影像优化 GeoTIFF GeoTIFF(cog)操作步骤登录数据资源平台控制台...

数据库性能

背景信息数据库自治服务DAS（Database Autonomy Service）是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务，可以帮助您消除数据库管理的复杂性及人工操作引发的服务故障，有效保障数据库服务的...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

数据导入概览

使用DataWorks数据集成同步数据到GDB DataWorks 是阿里云上的一站式大数据智能云研发平台，其中数据集成服务支持导出数据到GDB，您也可以使用平台完成数据计算、筛选、转换等处理再同步到GDB。DataWorks的GDB数据源底层由GdbWriter插件提供...

从零开始完成无锁结构变更

基本信息数据库类型选择数据库实例的类型。实例地区选择数据库实例所在的地域。其他主账号若您选择跨阿里云账号实例，则会出现该配置项。选择数据库实例所属的主账号。说明如果主账号不在选择列表中，您可以单击添加用户，添加数据...

配置数据质量监控

背景信息数据质量是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。数据质量以数据集（DataSet）为监控对象，目前支持MaxCompute数据表监控。当离线MaxCompute数据发生变化时，数据质量会对数据进行校验，并阻塞生产链路，...

敏感数据保护

数据分类分级 Dataphin支持对数据的分类分级进行管理，内置了常用的个人信息数据分类，同时支持客户自定义企业的数据分类分级标准。Dataphin的数据分类，支持多级的数据分类层级管理，同时支持内置识别特征和识别方式，便于后续自动进行...

敏感数据保护

数据分类分级 Dataphin支持对数据的分类分级进行管理，内置了常用的个人信息数据分类，同时支持客户自定义企业的数据分类分级标准。Dataphin的数据分类，支持多级的数据分类层级管理，同时支持内置识别特征和识别方式，便于后续自动进行...

配置数据质量监控

背景信息数据质量是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。数据质量以数据集（DataSet）为监控对象，目前支持MaxCompute数据表监控。当离线MaxCompute数据发生变化时，数据质量会对数据进行校验，并阻塞生产链路，...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka至湖仓版（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS至湖仓版（推荐）大数据 Hive 数据迁移 Hive数据导入相关文档 AnalyticDB...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

云数据库录入

基本信息数据库类型选择数据库实例的类型。实例地区选择数据库实例所在的地域。其他主账号若您选择跨阿里云账号实例，则会出现该配置项。选择数据库实例所属的主账号。说明如果主账号不在选择列表中，您可以单击添加用户，添加数据...

数据源白名单配置

产品名称操作说明云原生大数据计算服务MaxCompute 设置白名单实时数仓Hologres IP白名单云数据库ClickHouse 设置白名单消息队列Kafka版配置白名单云原生分布式数据库PolarDB-X 设置白名单云原生分布式数据库PolarDB-X（2.0）设置白...

数据质量入门

背景信息数据质量支持以表为维度，为某个表配置质量规则；或以规则模板为维度，批量为多个表配置某个质量规则。本文仅以配置单表的质量规则示例。使用模板批量为多个表配置质量规则，详情请参见配置规则：按模板（批量）。更多数据质量...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

GetMetaDBInfo

调用GetMetaDBInfo获取引擎实例的基本元数据信息。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String...

表设计最佳实践

表设计指南建议将数据信息划分为基本属性表和天气日志表，分别用于存储变化小和变化大的数据。因为天气信息的数据量巨大，在对天气日志表按照地域进行分区后，可以按照时间（例如，天）进行二级分区。此种分区方式可避免发生因某一个地点...

数据域

背景信息数据域是一个较高层次的数据归类标准，是对企业业务过程进行抽象、提炼、组合的集合，是企业业务人员在使用数据时第一个分组入口，可以帮助企业业务人员快速的从海量的数据中快速圈定到自己的业务数据。由上图所示，数据域规划...

创建GreenPlum数据源

背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、...

创建GreenPlum数据源

背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

数据信息 大数据

新品推荐

数据信息大数据