大数据平台的搭建过程-大数据平台的搭建过程文档介绍内容-阿里云

数据质量教程概述

在整体数据链路的处理过程中，为保证最终产出数据的质量，您需要对数据仓库ODS、CDM和ADS层的数据分别进行监控。数据仓库分层的定义请参见数仓分层。本教程基于搭建互联网在线运行分析平台教程，ods_user_trace_log、dw_user_trace_log...

数据质量管理流程

数据质量的管理流程包括业务数据资产定级、加工卡点、风险点监控和及时性监控，您可以构建属于自己的数据质量保障体系。数据质量管理的流程图如下。数据质量管理的流程说明如下：分析业务场景，对数据流转链路上的整个依赖关系，进行资产...

数据质量教程概述

在整体数据链路的处理过程中，为保证最终产出数据的质量，您需要对数据仓库ODS、CDM和ADS层的数据分别进行监控。数据仓库分层的定义请参见数仓分层。本教程基于搭建互联网在线运行分析平台教程，ods_user_trace_log、dw_user_trace_log...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中，在大数据量的情况下将数据存储在OSS上会大大降低使用的成本，EMR集群主要用来作为计算资源，在计算完成之后可以随时释放，数据在OSS上，同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

用户授权与管理

使用数据建模DATABLAU功能时，在进行定义标准、数据建模、数据开发、部署运维等不同任务时，通常需不同角色的用户进行操作，对应用户需获取相应的权限。本文为您介绍制定标准、数据建模并应用部署过程中推荐的用户角色权限规划与授权操作...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

数据治理中心概述

数据治理中心可自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题，并通过健康分量化评估，从全局、工作空间、个人等多个视角，以治理报告及排行榜呈现治理成果，帮助您高效达成治理目标。同时，提供...

概述

任务中心对数据资源平台中的数据同步、数据开发、标签同步、质量评估等任务和实例进行运维管理。数据资源平台各模块发起的任务，如数据同步、数据开发、标签加工等，都会发到对应的任务流，不同的任务来源通过业务类型区分。根据业务...

任务中心

任务中心对数据资源平台中的数据同步、数据开发、标签加工等任务和实例进行运维管理。数据资源平台各模块发起的任务，如数据同步、数据开发、标签加工等，都会发到对应的任务流，不同的任务来源通过业务类型区分。根据业务流程，任务流中...

概述

DataWorks的安全中心，帮助您快速构建平台的数据内容、个人隐私等相关的安全能力，满足企业面向高风险场景的各类安全要求（例如，审计），无需您额外配置即可直接使用该功能。DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您...

数据集成：全领域数据汇聚

DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。功能概述 DataWorks数据集成支持离线同步、实时同步，以及离线和实时一体化的全增量同步...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

概述

系统设置为用户提供了工作组、云计算资源和成员的创建及管理等能力，为数据资源平台的运行和使用提供了必要的基础保障。工作组管理工作组管理：支持工作组的创建、管理，以达到各工作组之间空间隔离的效果，并提供编辑、禁用、复制、删除...

系统设置

系统设置为用户提供了工作组、云计算资源、成员的创建及管理等能力，为数据资源平台的运行、使用提供了必要的基础保障。工作组管理工作组管理：支持工作组的创建、管理，以达到各工作组之间空间隔离的效果，并提供编辑、禁用、复制、删除...

云产品集成

常见云产品如下：大数据开发治理平台 DataWorks 实时计算 Flink 版数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现前提条件已获取 OceanBase 数据库的基本连接信息，详细步骤请参见获取连接参数。大数据开发治理平台 ...

上海新能源汽车车辆基础数据

成立以来，数据中心在多源数据融合应用方面做了许多探索，陆续建成了“上海市新能源汽车大数据平台”、“上海市动力电池溯源管理平台”、“上海市加氢站与氢燃料电池汽车公共数据平台”、“GEF6上海能源管理中心平台”，有效发挥了数据在...

功能发布记录 2022年之前

DataWorks的安全中心，帮助您快速构建平台的数据内容、个人隐私等相关的安全能力，满足企业面向高风险场景的各类安全要求（例如，审计），无需您额外配置即可直接使用该功能。2021.03.13 全部地域。概述运维中心新增DAG聚合视图及上下游...

IoT数据自动化同步至云端解决方案

物联网的体系结构包括设备、网络、平台、分析、应用和安全，其中分析部分的主要内容为大数据分析。大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案...

独享数据服务资源组

为保证用户创建并封装在数据服务中的API在被外部应用调用时，能达到高QPS以及满足可用性保障，企业需要使用独享数据服务资源以确保调用的高效和可靠。独享数据服务资源给用户提供了专属的计算资源和环境隔离，提升企业高并发接口处理效率，...

产品优势

您可以快速搭建开源大数据服务，例如Hadoop、Spark、Flink、Kafka和HBase服务。稳定可靠的开源组件 100%采用社区开源组件，随开源版本升级迭代，详情请参见版本概述。适配开源组件，避免开源组件之间的版本兼容性问题。基于开源组件，优化...

确认表血缘

任务配置上下游节点依赖前，您需先确认当前节点的表血缘关系（例如，表数据间的血缘关系、表产出的分区数据），基于血缘关系配置节点的调度依赖。本文为您介绍如何确认表血缘，以及未基于表血缘配置节点依赖的影响。背景信息确认表血缘，...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

概述

使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据，可以使用Impala访问和查询，而...

离线同步写入MongoDB数据

DataWorks的数据集成为您提供MongoDB Writer插件，可从其他数据源中读取数据，并将数据同步至MongoDB。本文以一个具体的示例，为您演示如何通过数据集成将MaxCompute的数据离线同步至MongoDB。前提条件本实践进行操作时，需满足以下条件。...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

常见问题

MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute的项目发挥什么作用？如何获取MaxCompute中的Accesskey_ID和AccessKey_Secret？现有账号的AccessKey被禁用，创建一个新的AccessKey，会对之前AccessKey创建的周期性...

受众与核心能力

总之，使用DataWorks，您不仅可以进行海量数据的离线加工分析，还能完成数据的汇聚集成、开发、生产调度与运维、离线与实时分析、数据质量治理与资产管理、安全审计、数据共享与服务、机器学习、应用搭建等覆盖大数据全生命周期的最佳实践...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。...

什么是EMR on ECS

您可以快速搭建开源大数据服务，例如Hadoop、Spark、Flink、Kafka和HBase服务。100%采用社区开源组件，适配并优化开源组件，性能远高于开源版本。基于时间的弹性伸缩能力，抢占式实例可进一步降低成本。解耦了计算与存储之间的绑定关系，...

可视分析创作间和传统BI软件差异比较

预定义的报告需要行业数据经验专家，搭建数据报表分析过程需要理解：维度、度量、数据类型等统计知识可视化数据的图表配置也需要专业数据分析人员支持支持二次分析不支持二次分析数据分析结果数据集产生的所有见解，提炼在数据...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

业务过程

业务过程是企业在指定的数据域中所执行的业务活动，是数据建模所需要分析的逻辑主体。例如，交易域中可以有加入购物车、下单、支付等业务过程。本文为您介绍如何创建并使用业务过程。前提条件已根据规划准备好对应数据域，系统已默认提供...

概述

AnalyticDB PostgreSQL版向量分析可以通过AI算法提取非结构化数据的特征，并利用特征向量作为非结构化数据的唯一标识，帮您快速且低成本地实现对非结构化数据检索和对结构化数据关联分析。向量数据库简介在现实世界中，绝大多数的数据都...

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

产品简介

页面搭建过程中，可通过页面预览来查看和验证可视化编辑的效果。输入即所见，所见即所得。一次搭建，多端使用搭建好的页面支持在多种终端应用中使用，包括移动应用（App）、H5、小程序。应用场景运营人员通过使用智能搭建服务快速生成和...

DBS沙箱功能概览

相比现有基于大数据平台的历史数据离线分析方案，DBS沙箱功能提供原始数据库SQL接口，不需要开发人员编写离线分析脚本，并由于使用快照存储机制，存储成本也更低。费用说明更多信息，请参见 DBS沙箱费用。后续步骤自建MySQL应急恢复...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

功能简介

AnalyticDB PostgreSQL版的企业数据智能平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据建模、数据开发、质量评估、资产管理等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据资源。...

冷热分层

更多介绍请参见结构化大数据分析平台设计、面向海量数据的极致成本优化-云HBase的一体化冷热分离和云上如何做冷热数据分离。冷热数据数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据的数据量较大，很少被访问，甚至...

大数据平台的搭建过程

新品推荐