大数据一份-大数据一份文档介绍内容-阿里云

数据分布策略

复制分布 DISTRIBUTED REPLICATED 系统会在每个计算节点都保存一份表的全量数据。如果数据库中存在大表与小表join的场景，您可以将足够小的表设置为复制分布来提升性能。建表语句示例如下：CREATETABLEreplicated_stuff(thingstext,...

快速体验

涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、加工、质量监控，以及数据可视化展现，您需提前开通该服务。详情请参见开通DataWorks服务。云原生大数据计算服务MaxCompute 实现底层加工...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

数据导入方式介绍

为满足多样化的数据导入需求，云原生数据仓库AnalyticDB MySQL版提供了多种数据导入方式，包括：通过外表导入数据、使用DataWorks导入数据和利用JDBC通过程序导入数据等。本文介绍各导入方式的特性及适用场景，帮助您选择正确的数据导入...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

什么是数据资源平台

基于标签数据的群体分析、专家业务模型构建、全流程任务监控告警、数据服务化、数据资产管理等核心能力，提供标准化程度高、易用性强的一站式大数据管理平台。依托数据资源平台，可设计高质量的标准化数据模型，减少重复开发工作，用户可...

疏密快照管理策略

一周内（超过24小时）仅保留每日0点后产生的6份快照数据。综上所述，若快照频率已设置为15分钟一次，一周内将保留33份快照点。频率为小时级快照频率若设置为小时级别，24小时内的快照数据会全部保留。超过24小时将仅保留每日0点后完成的...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

升级数据库大版本

本文介绍云数据库MongoDB支持升级的数据库大版本以及如何升级数据库大版本。注意事项升级分片集群实例的数据库大版本时，实例的协议类型需为 MongoDB协议。升级采用轮转升级的方式进行，升级过程中会自动对实例进行2~3次重启，请在业务低...

DataWorks On MaxCompute使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

数据建模：智能数据建模

如何打破部门或业务领域之间的信息孤岛是企业数据管理的一大难题。数据标准整合，统一灵活对接同一数据不同描述，企业数据管理难、内容重复、结果不准确。如何制定统一的数据标准又不打破原有的系统架构，实现灵活对接上下游业务，是标准...

Slowly Changing Dimension

G-SCD按照固定的时间粒度生成一份业务快照数据，其中时间粒度可以是天、小时或者分钟等，同时支持按照时间粒度查询对应时间段的数据。在传统的数仓体系下，基于Hive表的实现有以下两个解决方案可以考虑，但各有弊端。解决方案存在的问题 ...

概述

如何打破部门或业务领域之间的信息孤岛是企业数据管理的一大难题。数据标准整合，统一灵活对接同一数据不同描述，企业数据管理难、内容重复、结果不准确。如何制定统一的数据标准又不打破原有的系统架构，实现灵活对接上下游业务，是标准...

开通备份恢复

说明保留全备个数+1的原因是只有在新备份数据完成后才会淘汰旧数据，因此在数据备份的过程中，需要额外保留一份全备空间，用于保存旧数据。全量备份空间大小开通备份恢复功能后可在Lindorm管理控制台查看，查看方式：宽表引擎>备份恢复，...

DB2数据源

由于主备数据同步存在一定的时间差，特别在网络延迟等情况下，会导致备库同步恢复的数据不是一份当前时间的完整镜像，与主库有较大差别。一致性约束 DB2在数据存储划分中属于RDBMS系统，对外可以提供强一致性数据查询接口。例如，一次同步...

外部表概述

说明使用外部表功能时，外部表的数据不会复制一份存在MaxCompute上并产生存储费用。外部表支持全量搜索。Tunnel功能及Tunnel SDK当前不支持外部表操作。您可以通过Tunnel直接上传数据到MaxCompute内部表，或者是通过OSS Python SDK上传到...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

基本概念

维度表维度表，又称复制表，集群的每个节点都会存储一份维度表的全量数据。因此，复制表中的数据量不宜过大，最好不超过2万行。由于维度表的变更会广播到集群的所有节点，确保所有节点的数据一致性，影响写入性能，因此不建议频繁增删改...

开通备份恢复

说明保留全备个数+1的原因是只有在新备份完成后才会淘汰旧数据，在备份的过程中需要额外一份全备空间。全量空间大小可以在HBase Master页面或者UE集群管理页面获取。增量空间=日志保留天数*每天增量LOG大小。假设平均1MB/s的写入,每天需要...

pg_subscription

和大部分系统目录不同，pg_subscription 在集簇的所有数据库之间共享：每个集簇只有一份 pg_subscription 拷贝，而不是每个数据库一份。对列 subconninfo 的访问被从普通用户那里收回，因为该列可能含有明文口令。列名称列类型描述 oid ...

数据质量评估标准

例如，某公司有很多业务数仓分支，对于同一份数据，在不同的数仓分支中必须保证一致性。从在线业务库加工到数据仓库，再到各个数据应用节点，用户ID必须保持同一种类型，且长度也要保持一致。因此，您需要设计数仓的公共层以确保数据的一致...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

PolarDB Serverless实现了哪些突破

第一代云原生数据库的困境早期的云上数据库，大部分是以ECS中的自建数据库和云厂商托管的数据库RDS的形态存在的，到目前为止还是有非常大的用户量。这些云上数据库架构使用的是传统数据库的架构，只是运行在云的基础设施上，数据库本身并...

数据集成调度策略说明

在目标库中仅保持一份最新的存量数据用于测试或数据分析。基于时间戳的增量模式 DTS会根据时间戳字段，将上次调度后产生的新数据迁移至目标库。该策略存在如下限制：当源和目标实例均为MySQL数据库，或者目标实例为云原生数据仓库 ...

发展历程

MaxCompute登上Forrester《2018年一季度云端数据仓库》大数据服务榜单。Gartner发布了《2017年分析型数据管理解决方案（DMSA）魔力象限》报告，阿里云作为云服务商成功冲进Gartner魔力象限。Forrester：CloudData Warehouse Q4 进入第三...

pg_db_role_setting

和大部分系统目录不同，pg_db_role_setting 是在集簇的所有数据库之间共享的：在一个集簇中只有一份 pg_db_role_setting 拷贝，而不是每个数据库一份。列名称列类型描述 setdatabase oid 此设置可用的数据库OID，如果不与具体数据库相关...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

DMS支持的数据库

关系型数据库 MySQL SQL Server PostgreSQL MariaDB OceanBase MySQL模式 OceanBase Oracle模式 OceanBase ODP Oracle DB2 达梦数据库 OpenGauss 数据仓库 ClickHouse SelectDB NoSQL数据库 Redis MongoDB 大数据 Hive 录入他云/自建数据库...

pg_database

和大部分系统目录不同，pg_database 是在集簇的所有数据库之间共享的：在一个集簇中只有一份 pg_database 拷贝，而不是每个数据库一份。列名称列类型描述 oid oid 行标识符。datname name 数据库名称。datdba oid 数据库的拥有者，通常是...

数据湖管理FAQ

“Lakehouse”是基于数据湖的数仓，一种新的大数据范式，最根本出发点就是为了解决单纯Data Lake应用下的各种问题，例如不支持UPSERT，不支持多版本，不支持增量ETL，小文件太多，格式不是分析型的，元信息不统一，Schema没有约束，缺乏...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

ODS层设计规范

日志（数据量非常大，例如一天数据量大于100 GB）数据保留24个月。自主设置是否保留历史月初数据。自主设置是否保留特殊日期数据。ODS镜像型全量表按天分区重要的业务表及需要保留历史的表视情况保存。ODS全量表的默认生命周期为2天，...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 StarRocks 支持不支持 Hudi 支持支持 Doris 支持不支持 GreenPlum 支持支持 TDengine ...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

数据备份

数据备份页签的每一行信息表示一份基础备份数据，记录了备份开始时间，备份结束时间，备份状态（成功或失败），备份大小以及一致性时间点。一致性时间点表示此基础备份数据可以将集群恢复至该历史时间点，并使数据库处于一致性状态...

大数据一份

新品推荐