大数据平台存储-大数据平台存储文档介绍内容-阿里云

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

IoT数据源

类型分类物联网平台存储表数据类型数据集成配置类型整数类 BIGINT BIGINT 布尔类 BOOLEAN BOOLEAN 日期时间类 TIMESTAMP BIGINT 浮点类 DOUBLE DOUBLE 字符串类 VARCHAR STRING 支持的存储表数据表表标识符描述产品表 system.iotx_...

JindoData概述

IDC机房数据（HDFS）上云迁移和多云迁移利器，支持多种存储数据迁移到阿里云OSS和JindoFS服务，使用上类似Hadoop DistCp。支持JindoTable。结合计算引擎的使用推出的一套解决方案，支持Spark、Hive和Presto等引擎，以及表格式数据的管理...

OSS/OSS-HDFS概述

使用OSS或OSS-HDFS存储数据可以有效节省成本，结合低频、归档和冷归档等方式，可以进一步优化冷数据的存储成本。可扩展性。OSS和OSS-HDFS具有更好的可扩展性，不受硬盘容量限制，无需人工扩容。特性通过JindoSDK使用OSS和OSS-HDFS的特性...

主备方案介绍

云数据库HBase存储海量大数据，在业务场景中往往承载着重要数据，为保障数据的高可用性和安全性，云数据库HBase提供了主备双活和主备容灾特性。本文介绍云数据库HBase的主备双活和主备容灾特性功能。使用场景主备双活：大数据量随机读响应...

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

什么是备份数据量

存储数据量 存储数据量指存放存储介质的实际数据大小。与备份数据量不同，存储数据量取决于备份数据量、备份数据存储格式、压缩算法等因素。空间大小在单次全量备份情况下，数据库磁盘空间（RDS/ECS）>数据文件空间（实际使用）>备份数据...

开启智能存储分层

重要 存储保存时间配置存在相应限制，具体信息，请参见数据存储生命周期管理。开启智能存储分层登录日志服务控制台。在Project列表区域，单击目标Project。在日志存储>日志库页签中，单击目标Logstore对应的图标，然后单击修改。在 ...

应用场景

可以将访问频度非常高的数据存储在云数据库 Memcache 版中，底层数据存储在 RDS 中。大型促销类业务大型促销秒杀系统，系统整体访问压力非常大。一般的数据库根本无法承载这样的读取压力，可选用云数据库 Memcache 版存储。带有计数器的...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

概述

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

数据存储

根据采集到的不同数据类型，AnalyticDB采用不同的后台存储系统来进行监控数据的存储。时序数据存储 时序数据库对时序数据的写入、聚合以及检索都做了特定优化，AnalyticDB采集到的时序数据主要存在时序数据库中。目前每个AnalyticDB实例有...

应用场景

您可以将模式固定的结构化数据存储在 RDS（Relational Database Service）中，模式灵活的业务存储在MongoDB中，高热数据存储在云数据库Redis 或云数据库Memcache 中，实现对业务数据高效存取，降低存储数据的投入成本。移动应用云数据库...

时序模型计量计费

分析存储数据存储按量付费资源包按照容量型存储计费。分析存储相比时间线数据具有更高的压缩率。按量写吞吐量按量读吞吐量按量付费资源包按照容量型读写计费。按照SQL引擎访问分析存储实际产生的数据扫描量计算CU，其中读取4 KB...

概述

大数据分析如果您的业务采用MySQL数据库，随着业务的发展，大数据分析场景逐渐增多，而MySQL数据库进行大数据分析需要结合流式组件、存储系统、计算组件等工具，操作复杂且难度大，您可以选择将MySQL数据库迁移到表格存储中实现大数据分析...

JindoFS缓存模式

概述缓存模式兼容现有OSS存储方式，文件以对象的形式存储在OSS上，每个文件根据实际访问情况会在本地进行数据和元数据的缓存，从而提高访问数据以及元数据的性能，Cache模式提供不同元数据同步策略以满足您在不同场景下的需求。...

定价公式及退费说明

按量付费包年包月总计算节点价格=目录单价*节点个数/3*时长【存储】数据盘即：购买页的“存储大小”数据盘是指数据文件、索引文件和临时文件等占用的空间。被占用的存储空间会产生费用。存储空间的费用与集群所在的地域、部署方案、预购...

监控与日志

表格存储的日志数据存储的最大保存时长默认为7天，您可以根据实际需要自行修改。相关操作，请参见修改Logstore配置。查询与分析审计日志对表格存储实例中的资源进行操作时，系统会自动采集审计日志并建立索引。您可以在审计日志页面对...

产品优势

本文介绍了表格存储的优势，包括多模型数据存储、多元化数据索引、多计算生态接入、访问安全性等。多模型数据存储 表格存储支持宽表（WideColumn）模型、时序（TimeSeries）模型、消息（Timeline）等多种数据存储模型，能实现多种类型...

离线同步能力说明

功能概述离线同步支持的能力如下图所示：功能描述异构数据源间的数据同步数据集成目前支持40+数据源类型，包括关系型数据库、非结构化存储、大数据存储、消息队列间的数据同步。您可以通过定义来源与去向数据源，并通过数据集成提供的...

互联网、电商行业离线大数据分析

方案优势大规模存储：超大规模存储且自动扩容，最大可以支持EB级别的数据。高性能：性能更加高效、稳定。低成本：与自建数据库进行分析相比，成本更低。安全：原生的多租户系统，以工作空间进行隔离，所有计算任务在安全沙箱中运行。可视...

聚合支付方案

阿里云从业务扩展性、数据流动性、服务高可用三方面入手，通过多款云数据库产品为利楚扫呗制定聚合支付方案，解决利楚扫呗在业务扩展期遇到的数据存储空间不足、读写性能下降以及大数据分析空缺等问题。业务痛点武汉利楚商务服务有限公司...

产品优势

阿里云E-MapReduce（简称EMR）为您提供相对方便可控的企业级开源大数据服务。您可以快速搭建开源大数据服务，例如Hadoop、Spark、Flink、Kafka和HBase服务。稳定可靠的开源组件 100%采用社区开源组件，随开源版本升级迭代，详情请参见版本...

图扑案例

Lindorm 针对工业物联网数据高并发写入，实时存取等特点，创新性地融合时序、索引、宽表等多模引擎能力，为存储、分析低价值密度、高通量、高实时性的工业物联网监控数据提供了高性价比的最优解决方案，大幅度降低了数据存储和存储系统运维...

Catalog概述

存储系统：用于存储数据。数据文件以不同的格式存储在分布式文件系统或对象存储系统中。当FE将生成的查询计划分发给各个BE后，各个BE会并行扫描Hive存储系统中的目标数据，并执行计算返回查询结果。查询数据查询内部数据如果需要查询存储...

Catalog概述

存储系统：用于存储数据。数据文件以不同的格式存储在分布式文件系统或对象存储系统中。当FE将生成的查询计划分发给各个BE后，各个BE会并行扫描Hive存储系统中的目标数据，并执行计算返回查询结果。查询数据查询内部数据如果需要查询存储...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

验证数据压缩能力

存储过程旨在完成特定功能的 SQL 语句集，经编译创建并保存在数据库中，用户可以通过指定存储过程名并指定所需参数来调用执行，利用存储过程可以加速 SQL 语句的执行。更多内容参见新建存储过程。在存储程序中可以使用系统变量和用户定义...

设置数据保留策略

数据保留策略介绍 InfluxDB可以通过定义数据保留策略，用来控制存储数据量的方式。新创建的数据库默认的保留策略是 autogen，初始化的保留策略时长为0s，表示数据永久保存；分片时长默认为7天，您可以根据需求来修改存储策略。创建保留策略...

实现开发生产等多套环境隔离

背景信息很多企业用户在大数据的研发流程中有创建并隔离多套环境的需求，如创建并完全隔离开发、测试、生产环境，即各环境的数据物理存储地址、任务运行集群、大数据作业脚本均隔离，并对操作人员有严格的权限管控，如仅运维团队可使用...

什么是云数据库HBase

云数据库HBase是低成本、高扩展、云智能的大数据NoSQL，兼容标准HBase访问协议，提供低成本存储、高扩展吞吐、智能数据处理等核心能力，是为淘宝推荐、花呗风控、广告投放、监控大屏、菜鸟物流轨迹、支付宝账单、手淘消息等众多阿里巴巴...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

外部表概述

MaxCompute支持使用外部表功能查询和分析存储于OSS等外部存储系统的数据。该机制使得用户可以无需将数据导入到MaxCompute内部存储，直接对外部数据进行操作，从而提供了数据处理的灵活性和方便性。背景信息 MaxCompute SQL作为分布式数据...

什么是表格存储

同步表格存储数据表中数据使用通道服务、DataWorks或者DataX将表格存储数据表中数据同步到另一个数据表中。同步表格存储时序表中数据使用DataWorks工具将表格存储时序表中的全量数据或者增量数据同步到另一个时序表。数据导出同步...

整体架构

技术架构 AnalyticDB MySQL版采用云原生架构，计算存储分离、冷热数据分离，支持高吞吐实时写入和数据强一致，兼顾高并发查询和大吞吐批处理的混合负载。AnalyticDB MySQL 数仓版（3.0）主要用来处理高性能在线分析场景的数据。随着数据...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

集群容灾能力

数据容灾在Hadoop分布式文件系统（HDFS）中，每一个文件的数据均是分块存储的，每一个数据块保存有多个副本（默认为3），并且尽量保证这些数据块副本分布在不同的机架之上。一般情况下，HDFS的副本系数是3，存放策略是将一个副本存放在...

快速体验

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、...

EMR Studio概述

EMR Studio作为一款云上产品，支持与数据湖构建（DLF）和对象存储（OSS）等云上产品对接，构建云原生大数据产品架构。您可以在创建EMR Studio时指定OSS bucket路径，EMR Studio将自动备份作业代码和作业日志，并可以通过该路径提交Airflow ...

大数据平台存储

新品推荐