大数据基础设施条件-大数据基础设施条件文档介绍内容-阿里云

数仓分层

数据引入层（ODS，Operational Data Store，又称数据基础层）：将原始数据几乎无处理地存放在数据仓库系统中，结构上与源系统基本保持一致，是数据仓库的数据准备区。这一层的主要职责是将基础数据同步、存储到MaxCompute。数据公共层（CDM...

什么是云数据库 Memcache 版

云数据库 Memcache 版是基于内存的缓存服务，支持海量小数据的高速访问。云数据库 Memcache 版可以极大缓解对后端存储的压力，提高网站或应用的响应速度...不同之处在于硬件和数据部署在云端，有完善的基础设施、网络安全保障、系统维护服务。

产品简介

产品优势高性价比依托于数据湖分析DLA的Serverless无服务器化架构，用户在使用DLA Ganos时无需基础设施和管理成本，不需要单独维护Spark实例，只需要申请虚拟集群后即可随时随用、按需付费。零启动时间，透明升级、QoS弹性服务等。数据库...

实验介绍

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集，...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

前言

数据库是企业最重要的基础技术软件，随着云计算的快速崛起以及对传统IT基础设施带来的革新，云数据库也面临着新的机遇和挑战。经过阿里巴巴集团多年双十一技术的积累与云原生环境的创新结合，2017年9月，阿里云正式对外发布了自主研发的云...

快速体验

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、...

客户案例

基础设施底层服务需专门人员维护，性能瓶颈及运维人力成本高。服务版本升级困难。价值体现通过统一存储、统一元数据、计算与存储分离、计算资源弹性扩缩容，使系统整体架构更加灵活，并减少成本。同时，实现流批一体，做到秒级查询，使...

什么是数据库审计

第三十八条关键信息基础设施的运营者应当自行或者委托网络安全服务机构对其网络的安全性和可能存在的风险每年至少进行一次检测评估，并将检测评估情况和改进措施报送相关负责关键信息基础设施安全保护工作的部门。应用场景数据库审计服务...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

典型应用

用户画像分析随着数据时代的发展，各行各业数据平台的体量越来越大，用户个性化运营的诉求也越来越突出，用户标签系统，做为个性化千人千面运营的基础服务，应运而生。如今，几乎所有行业（如互联网、游戏、教育等）都有实时精准营销的...

技术架构

其底层基础设施采用阿里双11异地多活架构，为数千下游应用提供实时数据流。数据库备份（Database Backup，简称DBS），低成本、企业级的云原生备份平台。它可以为多种环境的数据库提供强有力的保护，包括本地数据中心、其他云厂商、公共云及...

客户案例

同时容灾上具备任意时间，任意服务器，任意机房，任意城市出现不可抗拒因素灾难时，完全无需人工接入的无损自适应容灾，RPO=0，RTO秒，极大的减少了运营和维护 IT 基础设施的工作量，从而降低了运行和维护的成本。在平台建设期间和投产后，...

什么是RDS MariaDB

更多信息请参见阿里云全球基础设施。通用描述约定描述说明本地数据库指代部署在本地机房或者非阿里云RDS上的数据库。RDS XX（XX 为 MySQL、SQL Server、PostgreSQL或MariaDB）指代某一数据库类型的RDS，如RDS MySQL是指在RDS上开通的...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

数据防泄漏典型案例

使用数据安全中心可以监测和防范各类数据泄露风险，例如身份盗用、越权操作、违规操作、操作失误、基础设施缺陷以及数据故意泄密等。检测到异常行为并触发异常告警后，您需要仔细分析审计日志，从而评估被记录操作的正当性，并采取相应的...

Dataphin支持的数据源

背景信息 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型说明如下：如果您需要在Dataphin中连接某数据源，则需要先在数据源管理中创建该数据源。...

查看敏感数据识别结果

仅支持在结构化数据、半结构化数据、非结构化数据或 大数据 分类下分别选择一个或多个数据类型，不支持跨分类同时选择多个数据类型。如果您未选中任意数据类型，数据安全中心默认展示所有数据类型下的敏感数据识别结果。数据模板：在 ...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

01新建模型目录

DWD：全称Data Warehouse Detail，明细数据层，该层数据和源数据基本保持一致，保存着最细粒度的数据，一般存放所有的明细数据，是所有后期分析的数据基础。具有数据量大，查询计算较慢的特点。DWS：全称Data Warehouse Summary，汇总数据...

外部表概述

MaxCompute支持使用外部表功能查询和分析存储于OSS等外部存储系统的数据。该机制使得用户可以无需将数据导入到MaxCompute内部存储，直接对外部数据进行操作，从而提供了数据处理的灵活性和方便性。背景信息 MaxCompute SQL作为分布式数据...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

什么是RDS MySQL

更多信息请参见阿里云全球基础设施。通用描述约定描述说明本地数据库指代部署在本地机房或者非阿里云RDS上的数据库。RDS XX（XX 为 MySQL、SQL Server、PostgreSQL或MariaDB）指代某一数据库类型的RDS，如RDS MySQL是指在RDS上开通的...

伯俊软件

利用云数据库 PolarDB PostgreSQL版（兼容Oracle）分钟级伸缩功能，构建弹性基础设施，高效地解决了客户业务高峰期的弹性扩展问题。图 1.业务架构图图 2.解决方案架构图客户价值通过全面集成云数据库 PolarDB PostgreSQL版（兼容Oracle...

查询报错问题

因此当查询分析型数据库MySQL版报错提示 memory is not enough，有以下2种建议：优化SQL，尽量不返回可有可无的结果集，同时尽量对不关心的数据添加过滤条件。若没有很好的处理方法，请联系分析型数据库MySQL版技术支持。若在现有业务基础...

什么是RDS SQL Server

更多信息请参见阿里云全球基础设施。通用描述约定描述说明本地数据库指代部署在本地机房或者非阿里云RDS上的数据库。RDS XX（XX 为 MySQL、SQL Server、PostgreSQL或MariaDB）指代某一数据库类型的RDS，如RDS MySQL是指在RDS上开通的...

恢复库表

云盘 RDS实例需满足以下条件：大版本：8.0、5.7 系列：高可用系列、基础系列（不支持Serverless实例）存储类型：SSD云盘、ESSD云盘、通用云盘说明您可以前往实例基本信息页面查看以上信息。若您初次使用RDS备份服务，您需要使用阿里云...

PolarDB-X 2.0数据源

PolarDB-X 2.0数据源为您提供读取和写入PolarDB-X 2.0的双向通道，本文为您介绍DataWorks的PolarDB-X 2.0数据同步的能力支持情况。使用限制 PolarDB-X 2.0数据源仅支持使用独享数据集成资源组。支持的版本离线读写：支持PolarDB-X 2.0，...

功能发布记录（2024年）

所有DataWorks用户数据治理中心概述数据治理中心新增物化视图功能当您在面对大数据计算任务频繁且存在大量相似子查询场景时，DataWorks支持自动化治理，智能推荐物化视图，为您提供了一种智能化、自动化的解决方案。当您启用此功能时，...

ClickHouse数据源

ClickHouse数据源为您提供读取和写入ClickHouse双向通道的功能，本文为您介绍DataWorks的ClickHouse数据同步的能力支持情况。支持的版本支持阿里云ClickHouse的20.8、21.8内核版本。您需要确认驱动和您的ClickHouse服务之间的兼容能力，...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

引擎简介

产品优势流引擎专注产品的云原生、高性能和易用性，致力于降低海量实时数据处理的使用门槛和成本，侧重于业务的实现而非复杂的基础设施维护。同时，流引擎也能够对现有的系统进行降本增效。实时性：支持秒级别的实时数据处理。易用性支持...

整体架构

同时借助云原生基础设施，计算节点实现了弹性调度，可根据业务需求做到分钟级甚至秒级扩展，实现了资源的有效利用。存储引擎存储引擎是基于Raft协议实现的分布式实时强一致高可用的引擎，通过数据分片和Multi-Raft实现并行，利用分层存储...

功能简介

数据探索（Data Discovery）是一款面向业务人员的业务模型（智能数据与智能算子组装）编排、调试、运行及运营管理产品，旨在将“大数据”变成“人人都可用的大数据”。数据探索面向行业客户和业务人员，提供工具内容一体化的业务模型构建...

使用限制

为保障实例的稳定及安全，云数据库SQL Server有部分使用上的约束。功能集群系列高可用系列基础系列 2022 企业集群系列 2019 企业集群系列 2017 企业集群系列 2022 标准版 2019 标准版 2017 标准版 2016 标准版、企业版 2014 标准版、...

什么是RDS PostgreSQL

更多信息请参见阿里云全球基础设施。通用描述约定描述说明本地数据库指代部署在本地机房或者非阿里云RDS上的数据库。RDS XX（XX 为 MySQL、SQL Server、PostgreSQL或MariaDB）指代某一数据库类型的RDS，如RDS MySQL是指在RDS上开通的...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

大数据基础设施条件

新品推荐