大数据系统规范-大数据系统规范文档介绍内容-阿里云

Kafka单表实时入湖OSS（HUDI）

在数据输出预览窗口，您可以根据需要修改输入数据，或者单击手工构造数据按钮自定义输入数据，然后单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点处理异常，或者产生脏数据时，也会实时反馈异常信息，能够帮助...

离线数据加工卡点

离线数据加工卡点，主要指在业务系统的数据生成过程中进行的卡点校验。代码提交的卡点校验代码提交卡点主要包括您在提交代码时，手动或自动进行SQL扫描，检查您的SQL逻辑。校验规则分类如下：代码规范类规则。例如，表命名规范、生命周期...

离线数据加工卡点校验

本文为您介绍离线业务系统的数据在生成过程中进行的卡点校验。代码提交卡点校验代码提交卡点校验主要包括您在提交代码时，手动或自动进行SQL扫描，检查您的SQL逻辑。校验规则分类如下：代码规范类规则。例如，表命名规范、生命周期设置及...

发展历程

MaxCompute通过全国首批大数据平台稳定性认证，被证明为韧性型系统。深度参与和推动全球大数据领域标准化建设 MaxCompute代表阿里巴巴计算平台，成为国际TPC（Transaction Processing Performance Council）委员会大数据评测标准BigBench的...

配置离线数据集成节点

使用限制系统在计算数据量过大且缺失主键的表时，会导致内存溢出或内存耗尽（OOM）。周期调度节点最近一次运行成功后，若连续运行失败10次及以上，离线集成任务直接执行失败，且不会再提交Spark任务。此时，您需要手动运行成功该任务节点...

数据治理中心概述

在进行数据开发前，可通过检查项对数据开发功能相关的约束进行检查，当检查出存在不符合约束规范的内容时，系统会生成影响开发流程正常执行的问题事件。您可基于该事件处理暴露的问题，以便数据开发流程可以正常执行。治理项检测。用于提交...

资产全景及目录概述

整体概述 Dataphin的数据资产功能，基于数据资产管理的规范及方法论，帮助您对数据资产进行盘点评估：支持自动化提取分析元数据，可视化构建数据资产大图，便于管理者发现与了解数据资产价值。支持对数据生产中的计算、存储、安全、应用等...

资产全景及目录概述

整体概述 Dataphin的数据资产功能，基于数据资产管理的规范及方法论，帮助您对数据资产进行盘点评估：支持自动化提取分析元数据，可视化构建数据资产大图，便于管理者发现与了解数据资产价值。支持对数据生产中的计算、存储、安全、应用等...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

单元测试报告

单元测试要求用例小类测试要点说明是否已检查（Y/N）规范性命名规范检查（表、视图、工作流、字段）是否符合 MaxCompute数仓建设规范管理指南中命名规范的表命名规范。代码格式和注释规范性是否符合 MaxCompute数仓建设规范管理指南...

添加体验空间数据库

数据表创建规范：长度不超过63个字符，由小写字母、数字和下划线构成，且必须由小写字母开头。等待数据导入完成后，单击完成，系统将自动跳转至数据表详情页。查看已上传数据表详情，包括但不限于数据地图、数据量、数据表大小及项目引用...

表结构设计规范

管理员通过使用数据管理DMS 的安全规则功能，可以完成绝大多数的安全规范制定，灵活适配到每一个业务数据库实例上。操作步骤登录数据管理DMS 5.0。单击控制台左上角的图标，选择全部功能>安全与规范>安全规则。说明若您使用的是非极...

规范定义最佳实践

当数据的业务含义存在较大差异时，您可以创建不同的数据板块，让各成员独立管理不同的业务，后续数据仓库的建设将按照数据板块进行划分。在Dataphin中，项目可以归属至数据板块以实现规范建模功能，同一个数据板块中可能包含多个不同的项目...

规范定义最佳实践

当数据的业务含义存在较大差异时，您可以创建不同的数据板块，让各成员独立管理不同的业务，后续数据仓库的建设将按照数据板块进行划分。在Dataphin中，项目可以归属至数据板块以实现规范建模功能，同一个数据板块中可能包含多个不同的项目...

功能简介

数据开发除了在系统层面上集中管理计算节点，降低计算节点和系统其他组件的耦合之外，也对计算节点内部的实现提供了一组规范。在实际的业务系统中，数据来源多种多样的，不同数据对数据处理的时延和数据量的要求不同，这就需要综合多种不同...

功能简介

数据开发除了在系统层面上集中管理计算节点，降低计算节点和系统其他组件的耦合之外，也对计算节点内部的实现提供了一组规范。在实际的业务系统中，数据来源多种多样的，不同数据对数据处理的时延和数据量的要求不同，这就需要综合多种不同...

数据开发

数据开发除了在系统层面上集中管理计算节点，降低计算节点和系统其他组件的耦合之外，也对计算节点内部的实现提供了一组规范。在实际的业务系统中，数据来源多种多样，不同数据对数据处理的时延和数据量的要求不同，这就需要综合多种不同的...

应用场景

大型促销类业务大型促销秒杀系统，系统整体访问压力非常大。一般的数据库根本无法承载这样的读取压力，可选用云数据库 Memcache 版存储。带有计数器的库存系统云数据库 RDS 与云数据库 Memcache 版搭配使用。RDS 存储具体数据信息，数据...

阶段一：基础防护建设

在该阶段，DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践，帮助企业做好数据安全治理的相关基础防护工作。场景一：数据分级分类无论在任何行业，数据分级分类都是监管首要检查的...

MaxCompute数据开发规范

本文为您介绍MaxCompute数据开发规范，包括项目空间、表、视图、工作流节点和编码规范。在进行数据开发前，请做好数据仓库研发流程的阶段规划，了解各种角色及其职责，具体内容请参见数据仓库研发规范概述。项目空间管理规范关于项目划分...

公共规范

公共字段定义规范数据统计日期的分区字段按以下标准：按天分区：ds(YYYYMMDD)。按小时分区：hh(00~23)。按分钟：mi(00~59)。is_{业务}：表示布尔型数据字段。以 Y 和 N 表示，不允许出现空值域。原则上不需要冗余分区字段。数据冗余一个...

管理数据树

数据表创建规范：长度不超过63个字符，由小写字母、数字和下划线构成，且必须由小写字母开头。等待数据导入完成后，单击完成，系统将自动跳转至数据表详情页。查看已上传数据表详情，包括但不限于数据地图、数据量、数据表大小及项目引用...

表设计规范

表数据存储规范按数据层规划数据的生命周期：源表ODS层：每天从业务系统同步过来的数据，全部保留，生命周期定义永久保存。当下游数据受损时，可以从ODS恢复数据。若ODS每天同步过来的是全量表，则可以通过全表拉链的方式来压缩存储。数据...

数仓构建流程

基本概念在正式学习本教程之前，您需要了解以下基本概念：数据板块：数据板块定义了数据仓库的多种命名空间，是一种系统级的概念对象，是比主题域更高维度的业务划分方法，适用于庞大的业务系统。当数据的业务含义存在较大差异时，您可以...

创建安全规则

安全规则是通过一组领域专用语言DSL（Domain Specific Language）对数据库实现精细化管控的规则集合，您在使用DMS的查询、导出、变更等功能时，可以通过安全规则管控这些功能行为，从而在平台内制定和打造数据库的操作规范和研发流程。...

数据引入层（ODS）

业务数据系统中的数据通常为非常细节的数据，经过长时间累积，且访问频率很高，是面向应用的数据。说明在构建MaxCompute数据仓库的表之前，您需要首先了解MaxCompute支持的数据类型版本说明。数据引入层表设计本教程中，在ODS层主要包括...

数据引入层（ODS）

业务数据系统中的数据通常为非常细节的数据，经过长时间累积，且访问频率很高，是面向应用的数据。说明在构建MaxCompute数据仓库的表之前，您需要首先了解MaxCompute支持的数据类型版本说明。数据引入层表设计本教程中，在ODS层主要包括...

DataWorks产品安全能力介绍

基于“I（Identify）P（Protect）D（Detect）R（Respond）”理论框架，从资产识别、安全防护、行为检测、风险事件响应等多个方面，系统性构建了一套完整且高效的数据安全保障体系。DataWorks安全能力版图说明 DataWorks产品分为基础版、...

性能测试技术指南

数据量分析数据量主要包括基础数据量（或者叫历史数据量、垫底数据量、数据库中已有的数据量）和参数化数据量，数据量在性能测试中起到非常重要的作用。对于在数据库中只有几条记录和有几亿条记录里面查询信息，那么结果肯定相差非常大的...

概述

Apache Flume是一个分布式、可靠和高可用的系统，可以从大量不同的数据源有效地收集、聚合和移动日志数据，从而集中式的存储数据。使用场景 Flume使用最多的场景是日志收集，也可以通过定制Source来传输其他不同类型的数据。Flume最终会将...

RDS SQL Server空间不足问题

说明系统文件空间使用量包括系统数据库master、msdb和model的所有数据文件和日志文件，以及一些系统文件（错误日志、默认跟踪文件、系统扩展事件文件等）。您可以在控制台的自治服务>空间管理页面，查看更详细的空间使用情况，包括数据...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

云数据库Redis开发运维规范

云数据库Redis拥有极强的性能，阿里云结合多年的运维经验，从业务部署、Key的设计、SDK、命令、运维管理等维度展示云数据库Redis开发运维规范，为您设计高效的业务系统提供参考，帮助您充分发挥Redis的能力。了解Redis性能边界图 1.Redis...

创建数仓分层

各个分层的功能介绍如下：数据引入层 ODS（Operational Data Store）ODS层用于接收并处理需要存储至数据仓库系统的原始数据，其数据表的结构与原始数据所在的数据系统中的表结构一致，是数据仓库的数据准备区。ODS层对原始数据的操作具体...

数据集成概述

说明以业务数据库数据同步到MaxCompute数据仓库为例，当有大量的数据存储在数据库系统里，需要将数据库中的全量及增量数据同步到MaxCompute进行数仓分析时，数据集成传统方式是通过全量同步或者依赖数据库表中的 modify_time 等字段进行...

平台安全诊断

数据存储备份说明系统会自动备份MaxCompute数据的历史版本并保留一定时间，您可以对保留周期内的数据进行快速恢复，避免因误操作丢失数据。详情请参见：《MaxCompute备份与恢复》MaxCompute项目 MaxCompute工作空间默认拥有该功能，您...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

消除数据重分布

首先分析数据库系统的查询模式，确定系统中成本最高的查询，并根据这些查询的需求进行初始数据库设计。决定查询总成本的因素包括查询运行需要多长时间以及它消耗多少计算资源。决定查询成本的其他因素是它的运行频率，以及它对其他查询和...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

文档更新动态（2023年）

更新说明创建MySQL数据源创建PolarDB-X数据源创建AnalyticDB for MySQL 2.0数据源创建AnalyticDB for PostgreSQL数据源创建达梦（DM）数据源创建TiDB数据源创建Kafka数据源离线集成配置优化新增Apache Doris数据源的离线集成。...

大数据系统规范

新品推荐