大数据与海量存储-大数据与海量存储文档介绍内容-阿里云

快速体验

大数据存储与计算：云原生大数据计算服务 MaxCompute（必选）、实时数仓Hologres（可选）、开源大数据平台E-MapReduce（可选），您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度：大数据开发治理平台 DataWorks数据...

主备方案介绍

云数据库HBase存储海量大数据，在业务场景中往往承载着重要数据，为保障数据的高可用性和安全性，云数据库HBase提供了主备双活和主备容灾特性。本文介绍云数据库HBase的主备双活和主备容灾特性功能。使用场景主备双活：大数据量随机读响应...

引擎简介

典型场景 大数据场景：海量数据存储与分析广告场景：海量广告营销数据的实时存储金融&零售：海量订单记录与风控数据的实时存储车联网：车辆轨迹与状况数据的高效存储处理互联网社交：高效、稳定的社交Feed流信息存储访问方式通过...

应用场景

大数据场景：海量数据存储与分析 Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势低成本：高压缩比，数据冷热分离...

引擎简介

支持秒级写入千万级时序数据点，提供高压缩比低成本存储、预降采样、插值、多维聚合计算、可视化查询结果等功能，满足海量时序数据存储与处理。物联网行业汽车行业工业物联网行业访问方式您可以使用SQL方式连接并访问云原生多模数据库...

冷热分离介绍

背景信息在海量大数据场景下，一张表中往往存储着大量的历史数据，如订单数据或者监控数据。随着时间的推移，这些数据被访问的频率会逐渐降低，最终被搁置。减少这部分数据的存储成本，成为一个新的问题。为解决这一问题同时降低存储成本...

Dataphin支持的实时数据源

Ververica Flink支持的实时数据源存储类型数据源类型读写维表读 大数据存储 MaxCompute 支持支持支持 DataHub 支持支持-Hologres 支持支持支持数据湖 Hudi 支持支持-Iceberg 支持（仅支持原生DDL方式）支持（仅支持原生DDL方式...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。...

实时数据API

业务数据及日志数据可以直接调用实时数据API接口，实时写入数据，再由Hologres提供高性能的计算服务和海量数据的存储服务。数据处理流程如下图所示。整个业务链路中，您无需导入导出数据，写入的数据统一存储在Hologres中，无冗余存储，...

公交出行：启迪公交

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍启迪公交如何通过 PolarDB-X 应对业务挑战。所属...

数据集成支持的数据源

支持 NoSQL数据源 Elasticsearch 支持支持 MongoDB 支持支持 Tablestore 支持支持 Aliyun HBase 不支持不支持 Redis 支持不支持 Lindorm 不支持不支持半结构化存储数据源 API 支持支持 SAP Table 支持不支持整库迁移支持的数据源...

新功能试用申请

支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。功能说明和使用请参见（邀测）MaxCompute Notebook使用说明。2023年3月项目开启Volume权限 External Volume是MaxCompute提供的分布...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

概述

以下是常见的应用场景：数据存储与计算安全场景：在不可信环境中（如第三方平台），Spark全密态计算引擎可以为关键的数据分析应用（如投资和财务分析）提供数据保护，保证用户数据在存储与计算过程中的安全，降低明文数据泄露风险。...

数据表-数据概况

功能说明在数据表详情的数据概况标签页，基于对元数据及存储数据的统计，为您提供了数据表更加详细的指标信息，比如表存储大小、表文件总数、DDL最后更新时间、数据最后更新时间、访问次数、分区存储大小，分区文件数，分区最后更新时间等...

备份大小

备份大小说明 与存储空间使用量的关系数据备份和日志备份存放在备份空间，都不占用存储空间。日志分为本地日志和日志备份。日志说明费用作用本地日志实例的原始日志，存放于实例的存储空间。不涉及费用，但占用实例存储空间。例如，...

查看集群日报与分析

Hive库存储格式分布Top信息展示如下：库TextFile存储格式数据量分布Top 库Parquet存储格式数据量分布Top 库ORC存储格式数据量分布Top Hive表信息 Hive表信息包含以下部分：Hive表详细信息 Hive表文件大小分布Top信息 Hive表冷热数据分布Top...

Serverless 计费

Serverless读写计量单位以CU（Capacity Unit，能力单元）来计算，单行读操作返回数据大小大于4 KB，则消耗读CU为实际数据大小按4 KB整除向上取整。请求计费 Serverless读写计量单位以CU（Capacity Unit，能力单元）来计算，单行读操作返回...

存储费用

低频存储数据访问费单价如下：公共云：0.04元/GB。金融云：0.076元/GB。日存储量平均值=采集到的存储量之和÷24 当低频存储的表或者分区转成标准存储或者长期存储时，会收取当前整张表或者分区的低频存储访问费。当长期存储的表或者分区转...

计算设置概述

计算引擎说明操作文档离线计算引擎 MaxCompute 阿里原生的大数据计算平台，承载海量数据存储与计算能力，高效率与高稳定性。设置Dataphin实例的计算引擎为MaxCompute AnalyticDB for PostgreSQL 专注于OLAP领域的分析型数据库，是云端...

规格与定价（金融云）

存储包规则当您需要的数据量较大（如1000 GB或以上）时，相比未使用存储包（即正常按量付费），预付费购买存储包能够享受一定的折扣优惠，且购买的存储包容量越大，折扣越多。存储包价格下表为按月计费存储包和按量付费的价格对比。...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

应用场景

而文件存储 HDFS 版能够提供高吞吐量和低延迟的访问能力，无需将数据迁移到计算资源本地，因此在该场景下推荐使用文件存储 HDFS 版 存储数据。将数据存入文件存储 HDFS 版，ECS实例或其他计算资源即可直接访问这些数据。将Hadoop或其他...

什么是备份数据量

与备份数据量不同，存储数据量取决于备份数据量、备份数据存储格式、压缩算法等因素。空间大小在单次全量备份情况下，数据库磁盘空间（RDS/ECS）>数据文件空间（实际使用）>备份数据量（DBS）>存储数据量（OSS）。综上所述，您可通过调整...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

基本概念

为了进一步提高效率，云数据库ClickHouse 将海量数据分散存储到多台服务器上，每台服务器只存储和处理海量数据的一部分，在这种架构下，每台服务器被称为一个分片（Shard）。副本（Replica）为了在异常情况下保证数据的安全性和服务的高...

文件存储HDFS版

适用场景文件存储HDFS版适用于对吞吐要求较高的大数据分析与机器学习业务场景。文件存储HDFS版能够提供高吞吐量和低延迟的访问能力，无需将数据迁移到计算资源本地。您将数据存入文件存储HDFS版后，ECS实例或其他计算资源即可直接访问...

产品架构

其基于数据自动分区+分区多副本+LSM的架构思想，具备全局二级索引、多维检索、动态列、TTL等查询处理能力，支持单表百万亿行规模、高并发、毫秒级响应、跨机房强一致容灾，高效满足业务大规模数据的在线存储与查询需求。面向海量半结构化、...

应用场景

互联网类应用 Cassandra能够支持大并发低延时的访问需求，具备高可用和弹性扩容能力，适合日志、消息、feed流、订单、账单、网站等各种大数据量的互联网在线应用场景。多活 Cassandra原生支持多DC部署方式，实现更好的可用性和容灾能力。云...

日志全观测应用概述

通过OpenStore智能混合存储实现海量数据存储面临查询复杂度大、海量存储成本高的问题时，可通过阿里云ES 7.10内核增强版的OpenStore智能混合存储功能，实现基于计算存储分离的超低成本的弹性存储，即根据实际数据存储量按量计费，无须提前...

表数据格式

为了支持增全量存储和处理一体化架构，Transaction Table2.0（简称TT2）设计了统一的表数据组织格式，既可支持MaxCompute普通表的所有功能，同时也能很好的支持增量处理链路的新场景，包括time travel查询、upsert操作等。本文为您介绍...

内置全密态能力

全密态云数据库是达摩院数据库与存储实验室的自研产品，可以杜绝数据库应用服务端数据拥有者以外的任何人接触到用户的明文数据，提高数据管理的强安全性和隐私性。全密态数据库（EncDB）-提供端到端（客户端到数据库服务端）全程加密的高...

常见问题

如何理解开源与云原生的大数据技术与产品？MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute的项目发挥什么作用？如何获取MaxCompute中的Accesskey_ID和AccessKey_Secret？现有账号的AccessKey被禁用，创建一个新的...

使用场景

云存储扩容和迁移集成智能缓存算法，自动识别冷热数据，将热数据保留在本地缓存，保证数据访问体验，无感知的将海量云存储数据接入本地数据中心，拓展存储空间。同时在云端保留全量数据（冷+热）保证数据的一致性。具体的使用场景如下所示...

存储类型

本地HDD盘 10ms~300ms 互联网行业、金融行业等有大数据计算与存储分析需求的行业，进行海量数据存储和离线计算的业务场景。宽表引擎、时序引擎、搜索引擎、文件引擎说明购买实例时，如果存储类型选择本地HDD盘，仅支持选择本盘节点...

对象存储优化

为了更有效地管理存储数据，您还可以使用标签对OSS对象进行分类，并在生命周期规则中对这些标签进行过滤。了解数据详细信息存储空间清单可以帮助您更好地了解对象的状态，简化并加速工作流和大数据作业任务等。存储空间清单功能以周为...

什么是文件存储 HDFS 版

文件存储 HDFS 版和对象存储OSS双向数据迁移文件存储 HDFS 版和数据库MySQL双向数据迁移迁移开源HDFS的数据到文件存储 HDFS 版产品定价文件存储 HDFS 版计量项包括标准吞吐、预置吞吐，计费方式支持按量付费方式。详细的计费规则，请...

Global AWR用户指南

架构与数据流 AWR架构说明采集层：UE作为代理进程部署于物理机，负责采集 PolarDB PostgreSQL版数据库集群的性能数据及事件信息。存储层：UE完成采集后，您可以配置将采集到的数据回写到对应的数据库集群中。展示层：提供Grafana展示,可...

Global AWR用户指南

架构与数据流 AWR架构说明采集层：UE作为代理进程部署于物理机，负责采集 PolarDB PostgreSQL版（兼容Oracle）数据库集群的性能数据及事件信息。存储层：UE完成采集后，您可以配置将采集到的数据回写到对应的数据库集群中。展示层：提供...

大数据与海量存储

新品推荐