大数据存储系统-大数据存储系统文档介绍内容-阿里云

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

Trino概述

Worker节点负责执行下发到任务，通过连接器读取外部存储系统到数据，进行处理，并将处理结果发送给Coordinator节点。应用场景 Trino是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半...

敏感数据溯源

您可以将DataWorks中的数据文件导出或下载至本地，再上传至溯源任务中进行溯源，也可以将外部系统的数据保存至CSV文件，再上传至溯源任务中进行溯源。目标文件上传成功后，您还可以选择替换或下载该文件。单击开始溯源，启动目标溯源...

Presto概述

Worker节点负责执行下发到任务，通过连接器读取外部存储系统到数据，进行处理，并将处理结果发送给Coordinator节点。Presto当前不支持高可用架构。在EMR集群中，Coordinator仅会部署在master-1-1节点上；Worker部署在全部Core和Task节点上...

概述

实例中某些库表的数据几乎没有更新、插入和修改操作，且读取频率非常低，如果您有降本需求，可以使用 PolarDB-X 企业版提供的冷数据归档功能，将这部分数据转存至低成本的OSS上存储，以降低数据存储成本。本章节介绍了冷数据归档方法、技术...

方案背景

表格存储（Tablestore）是阿里云自研的多模型结构化数据存储，可提供海量结构化数据的存储和查询分析服务。表格存储的分布式存储和强大的索引引擎能够支持PB级存储、千万TPS以及毫秒级延迟的服务能力。更多信息，请参见什么是表格存储。...

存储加密

当MaxCompute项目中存有敏感信息如个人身份信息、财务记录、健康记录等，开启数据存储加密可保护这些数据不被未授权者访问。MaxCompute支持通过密钥管理服务KMS（Key Management Service）对数据进行加密存储，提供数据静态保护能力，满足...

功能概述

表格存储面向海量结构化数据提供Serverless表存储服务，适用于海量账单、IM消息、物联网、车联网、风控、推荐等场景中的结构化数据存储，提供海量数据低成本存储、毫秒级的在线数据查询和检索以及灵活的数据分析能力。基本概念在使用 ...

通过SDK使用分析存储

使用SDK在已开启分析存储的时序模型实例下为时序表创建分析存储并为分析存储创建绑定关系，然后使用SQL查询数据。说明您可以通过 Java SDK 或者 Go SDK 使用分析存储功能，本文以Java SDK为例介绍分析存储的使用。注意事项时序分析存储...

环境准备

适用于海量账单、IM 消息、物联网、车联网、风控、推荐等场景中的结构化数据存储，提供海量数据低成本存储、毫秒级的在线数据查询和检索以及灵活的数据分析能力。更多信息，请参见什么是表格存储。表格存储通道服务（Tunnel Service）是...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

概述

适用于海量账单、IM消息、物联网、车联网、风控、推荐等场景中的结构化数据存储，提供海量数据低成本存储、毫秒级的在线数据查询和检索以及灵活的数据分析能力。更多信息，请参见什么是表格存储。云原生大数据计算服务（MaxCompute）是一...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

SQL洞察和审计

建议您将SQL审计日志导出并保存至本地后，再减少SQL洞察和审计数据存储时长。访问 RDS实例列表，在上方选择地域，然后单击目标实例ID。在左侧导航栏中，选择自治服务>SQL洞察和审计。单击服务设置。在服务设置页，修改存储时长并单击 ...

快速玩转Tablestore入门与实战

通道服务：表格存储全增量一体消费通道 Tablestore表设计最佳实践 Tablestore+DeltaLake（快速开始）架构原理-架构设计思想数据中台之结构化大数据存储设计结构化大数据分析平台设计云上应用系统数据存储架构演进 Lambda plus：云上大...

应用场景

互联网类应用 Cassandra能够支持大并发低延时的访问需求，具备高可用和弹性扩容能力，适合日志、消息、feed流、订单、账单、网站等各种大数据量的互联网在线应用场景。多活 Cassandra原生支持多DC部署方式，实现更好的可用性和容灾能力。云...

物联网存储介绍

基于物联网场景中多源异构数据存储、高并发吞吐、海量数据高性价比存储、多维度数据处理与分析等需求，表格存储推出了一站式物联网存储IoTstore解决方案，为物联网设备元数据、消息数据、时序轨迹等海量数据提供存储、查询、检索、分析、...

客户案例

因此我们需要基于其提供的 API 做很重的业务抽象，封装成一套业务通用的 SDK，因此我们不得不投入更多的开发和维护人员在这套笨重的 SDK上，开发效率将大打折扣，所以我们还需要一个对 SQL 语言支持良好的存储系统。系统成本：另一种解决...

图扑案例

Lindorm 针对工业物联网数据高并发写入，实时存取等特点，创新性地融合时序、索引、宽表等多模引擎能力，为存储、分析低价值密度、高通量、高实时性的工业物联网监控数据提供了高性价比的最优解决方案，大幅度降低了数据存储和存储系统运维...

数据集成概述

说明以业务数据库数据同步到MaxCompute数据仓库为例，当有大量的数据存储在数据库系统里，需要将数据库中的全量及增量数据同步到MaxCompute进行数仓分析时，数据集成传统方式是通过全量同步或者依赖数据库表中的 modify_time 等字段进行...

高级管理

PolarDB-X 1.0 SQL审计与分析支持高级管理，您可以通过高级管理跳转到日志服务控制台，修改SQL日志的存储时间、对SQL日志进行实时订阅与消费、数据投递和对接其他可视化等高级操作。开启SQL日志审计后，在当前页面右上角单击高级管理 ...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

什么是云数据库HBase

云数据库HBase是低成本、高扩展、云智能的大数据NoSQL，兼容标准HBase访问协议，提供低成本存储、高扩展吞吐、智能数据处理等核心能力，是为淘宝推荐、花呗风控、广告投放、监控大屏、菜鸟物流轨迹、支付宝账单、手淘消息等众多阿里巴巴...

概述

表格存储是阿里云自研的多模型结构化数据存储，支持多种数据模型，包括宽表模型和时序模型。您可以将Kafka数据同步到表格存储中的数据表（宽表模型中的表类型）或者时序表（时序模型中的表类型）。具体操作，请分别参见同步数据到数据表 ...

产品简介

湖管理，将为您提供对湖内数据存储的分析及优化建议，加强对数据生命周期管理，优化使用成本，方便您进行数据运维管理。应用场景数据分析场景，通过元数据发现、数据探索能力，可以快速的对OSS内结构化、半结构化数据进行分析、探索。结合...

表格存储

表格存储（Tablestore）是阿里云自研的结构化数据存储，提供海量结构化数据存储以及快速的查询和分析服务。表格存储提供兼容HBase的WideColumn模型、消息模型Timeline以及时空模型Timestream，实现PB级存储、千万TPS以及毫秒级延迟的服务...

产品概述

EMR还可以与阿里云其他的云数据存储系统和数据库系统（例如，阿里云OSS和RDS等）进行数据传输。阿里云EMR提供了on ECS、on ACK和Serverless形态，以满足不同用户的需求。形态描述 EMR on ECS EMR负责将开源Hadoop生态的组件安装部署在ECS...

备份下载的常见问题

RDS实例基本信息页面显示的存储空间大小为所有数据、系统文件、备份数据等的总和。因此存储空间数据量不等于下载的备份文件数据量。说明如需扩容或释放实例存储空间，请参见存储空间的常见问题。MySQL自建数据库的备份文件如何恢复或...

备份下载的常见问题

RDS实例基本信息页面显示的存储空间大小为所有数据、系统文件、备份数据等的总和。因此存储空间数据量不等于下载的备份文件数据量。说明如需扩容或释放实例存储空间，请参见存储空间的常见问题。MySQL自建数据库的备份文件如何恢复或...

备份下载的常见问题

RDS实例基本信息页面显示的存储空间大小为所有数据、系统文件、备份数据等的总和。因此存储空间数据量不等于下载的备份文件数据量。说明如需扩容或释放实例存储空间，请参见存储空间的常见问题。MySQL自建数据库的备份文件如何恢复或...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

常见问题

表格存储单表提供PB级数据存储规模，无需分库分表，同时支持千万QPS，可以轻松满足IoT设备、监控系统等时序数据的存储需求，大数据分析SQL直读以及高效的增量流式读接口让数据轻松完成离线分析与实时流计算。表格存储提供了各个场景下的...

常见术语

数据湖数据湖是一个集中式存储库，允许您以任意规模存储所有结构化和非结构化数据，数据湖支持存储EB级别的数据，阿里云数据湖存储以OSS为代表！数据湖分析数据湖分析就是针对数据湖数据分析的方案。云原生数据湖分析（简称DLA）是新一代...

计算与分析概述

表格存储多元索引宽表模型多元索引多元索引基于倒排索引和列式存储，可以解决大数据的多维查询和统计分析难题。当日常业务中有非主键列查询、多列组合查询、模糊查询等多维查询需求，以及求最值、统计行数、数据分组等数据分析需求时，...

背景

如上图所示，表格存储提供了丰富、通用的功能，并具有如下优势：零运维，即开即用，按量付费表格存储是阿里云上唯一一个Serverless的数据库，无需预定任何资源搭建服务，只需按使用量付费，简单易用，满足不同行业的大数据需求。...

设置数据保留策略

InfluxDB的数据保留策略可以定义数据在InfluxDB中保存时间，本文介绍如何设置数据保留策略。前提条件已创建数据库。具体操作，请参见创建数据库。数据保留策略介绍 InfluxDB可以通过定义数据保留策略，用来控制存储数据量的方式。新创建...

使用MaxCompute控制台（离线）

基于阿里云对象存储OSS上传数据时，需满足以下条件：已开通OSS并创建Bucket，将待上传数据存储至OSS Bucket中。详情请参见创建存储空间和上传文件。已为操作数据上传的阿里云账号授予可访问目标Bucket的权限，详情请参见访问控制概述。...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

Catalog概述

当FE将生成的查询计划分发给各个BE后，各个BE会并行扫描Hive存储系统中的目标数据，并执行计算返回查询结果。查询数据查询内部数据如果需要查询存储在StarRocks中的数据，请参见内表数据源。查询外部数据如果需要查询存储在外部数据源...

大数据存储系统

新品推荐