创建Hudi数据

背景信息 Hudi即Apache Hudi,Hudi是一个通用的大数据存储系统,将核心仓库和数据库功能直接引入到数据库中,并支持记录级别的插入更新和删除数据的能力。权限说明 仅支持 超级管理员、数据源管理员、板块架构师、项目管理员 角色创建数据...

应用场景

大数据场景:海量数据存储与分析 Lindorm支持海量数据的低成本存储、快速批量导入和实时访问,具备高效的增量及全量数据通道,可轻松与Spark、MaxCompute等大数据平台集成,完成数据规模离线分析。优势 低成本:高压缩比,数据冷热分离...

Tair命令概览

云原生内存数据库Tair 存在多个版本、系列和架构,各种类型的实例对于Redis命令的支持度有所不同。根据本章节的导航信息,您可以快速找到Tair各版本支持的命令和限制使用的命令。命令支持概览 兼容Redis社区版命令 云原生内存数据库Tair ...

创建Hudi数据

背景信息 Hudi即Apache Hudi,Hudi是一个通用的大数据存储系统,将核心仓库和数据库功能直接引入到数据库中,并支持记录级别的插入更新和删除数据的能力。更多信息,请参见 Apache Hudi官网。权限说明 仅支持 超级管理员、数据源管理员、...

常见术语

云原生数据湖分析(简称DLA)是新一代大数据解决方案,采取计算与存储完全分离的架构,支持数据库(RDS\PolarDB)与消息实时归档建仓,提供弹性的Spark与Presto,满足在线交互式查询、流处理、批处理、机器学习等诉求,也是传统Hadoop方案...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能,将 云消息队列 Kafka 版 集群上的数据迁移至阿里云大数据计算服务MaxCompute,方便您对离线数据进行分析加工。前提条件 在开始本教程前,确保您在同一地域中已完成以下操作:云消息队列 Kafka 版 ...

Delta Lake概述

Delta Lake以数据为中心,围绕数据流走向(数据从流入数据湖、数据组织管理和数据查询到流出数据湖)推出了一系列功能特性,协助您搭配第三方上下游工具,搭建快捷、易用和安全的数据湖。背景信息 通常的数据湖方案是选取大数据存储引擎...

备份大小

数据大小的关系 备份大小可能比数据,也可能比数据量小。云盘实例采用快照备份。快照备份的大小可能远大于数据的大小。云盘实例备份免费额度为实例存储容量的200%,本地盘实例备份免费额度为实例存储容量的50%。说明 计算快照备份...

数据集成概述

通过离线单条管道构建同步任务 离线的数据管道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据输入组件、数据输出组件及流程和转换组件,并基于此框架设计一套简化版的中间数据传输格式,从而实现数据源之间数据传输。数据...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效...

低成本RDS历史库

云原生多模数据库 Lindorm 和关系型数据库同时使用时可以满足低存储成本,方便运维,弹性伸缩等需求,本文介绍其方案架构和优势。重要 2023年3月10日后购买的LTS 不再支持低成本RDS历史库场景,2023年3月10日前购买的LTS仍支持该场景。背景...

什么是云原生数据湖分析

云原生数据湖分析(简称DLA)是新一代大数据解决方案,采取计算与存储完全分离的架构,支持数据库(RDS\PolarDB\NoSQL)与消息实时归档建仓,提供弹性的Spark与Presto,满足在线交互式查询、流处理、批处理、机器学习等诉求,也是传统...

产品简介

DLA Ganos是基于云原生数据湖分析(Data Lake Analytics,DLA)系统设计开发的,面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化(Serverless)数据湖分析服务与内置的Spark计算引擎,DLA Ganos打通了阿里云各个存储系统,如...

创建Teradata数据

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata,在对接Dataphin进行数据开发或导出...

创建Teradata数据

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata,在对接Dataphin进行数据开发或导出...

外部表概述

随着大数据业务的不断扩展,新的数据使用场景在不断产生,MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力,正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

数据源管理概述

功能介绍 多数据源类型接入:Dataphin内置丰富的数据源类型,支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息,请参见 Dataphin支持的数据源。自定义数据源类型:在内置的...

数据源管理概述

功能介绍 多数据源类型接入:Dataphin内置丰富的数据源类型,支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息,请参见 Dataphin支持的数据源。自定义数据源类型:在内置的...

内存型

云原生内存数据库Tair 内存型(简称内存型)适合并发量、读写热点多、高性能场景,内存型重点增强了多线程性能并集成多个自研扩展数据结构。购买方式 创建实例 主要优势 类别 说明 兼容性 100%兼容原生Redis,无需修改业务代码,提供 ...

配置数据校验

MySQL、PostgreSQL、AnalyticDB PostgreSQL版、PolarDB PostgreSQL版、Oracle 单节点架构的MongoDB 单节点架构的MongoDB 副本集架构的MongoDB 副本集架构的MongoDB 分片集群架构的MongoDB 分片集群架构的MongoDB 主从复制集群架构的Tair/...

MapReduce

自然语言处理:基于大数据的训练和预测。基于语料库构建单词同现矩阵,频繁项集数据挖掘、重复文档检测等。广告推荐:用户单击(CTR)和购买行为(CVR)预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

发现并处理Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发面积故障。本文将介绍Key与热Key产生的原因、其可能...

如何处理Tair集群数据倾斜

在 Tair 集群中,若个别数据分片节点(Data Node)的内存使用率或CPU使用率、带宽使用率、延时等性能指标远远高于其他数据分片,该 Tair 集群可能已产生数据倾斜。数据倾斜严重时,会导致实例在整体内存使用率不高的情况下,发生内存逐出...

如何处理Redis集群数据倾斜

在 Redis 集群中,若个别数据分片节点(Data Node)的内存使用率或CPU使用率、带宽使用率、延时等性能指标远远高于其他数据分片,该 Redis 集群可能已产生数据倾斜。数据倾斜严重时,会导致实例在整体内存使用率不高的情况下,发生内存逐出...

发现并处理Redis的Key和热Key

Key和热Key产生的原因 未正确使用Redis、业务规划不足、无效数据的堆积、访问量突增等都会产生Key与热Key,如:key 在不适用的场景下使用Redis,易造成Key的value过,如使用String类型的Key存放体积二进制文件型数据;...

容量规划

也有部分公司会存在更数据容量和数据挖掘需求,同时会引入分布型数据库,分析型数据库和大数据库分析工具等。完成数据库选型后,需要针对业务特性了解不同数据库所需要关注的指标,以常见的MySQL和Redis数据库为例,主要需要关注到业务...

OSS数据安全防护最佳实践

DSC 在您完成数据源识别授权后,从您存储在OSS的海量数据中快速发现和定位敏感数据,对敏感数据分类分级并统一展示,同时追踪敏感数据的使用情况,并根据预先定义的安全策略,对数据进行保护和审计,以便您随时了解OSS数据资产的安全状态。...

内置时空数据引擎Ganos

PolarDB PostgreSQL版(兼容Oracle)内置了时空数据库引擎Ganos,可对空间/时空数据进行高效的存储、索引、查询和分析计算。从静态POI(兴趣点)到APP位置信息,从电子地图到移动对象轨迹,从卫星遥感到泛在物联网,空间和时空信息已成为...

功能特性

Hudi存储 数据导入与导出 功能集 功能 功能描述 参考文档 大数据数据源 Maxcompute数据源 AnalyticDB for MySQL支持通过外表、DataWorks两种方式将MaxCompute数据导入至数仓版或湖仓版集群,也支持通过外表将AnalyticDB for MySQL数仓版...

TairVector性能白皮书

TairVector是基于 Tair 的向量存储引擎,集存储、检索于一体,提供高性能、实时的向量数据库服务。本文介绍了TairVector的性能测试方法和测试结果。TairVector支持高性能的向量近似最近邻(ANN)检索,可用于非结构化数据的语义检索、个性...

迁移服务(MMA)

MaxCompute提供的数据迁移服务支持通过MMA(MaxCompute Migration Assist)服务,将Hive数据安全且高效地迁移到MaxCompute。迁移流程 使用限制 不支持迁移Hive数据至已开启Schema功能的MaxCompute项目。关于Schema介绍详情,请参见 Schema...

E-MapReduce支持倚天云服务器

提升计算性能 倚天云服务器采用了ARM技术架构,包括高性能核心和灵活的多核处理器,这些技术的结合使得倚天架构在处理大量数据时表现出色。在相同规格下(32C 128GB,6台机器)运行Benchmark任务,10 TB数据量下,倚天架构下的集群Hive任务...

技术架构选型

数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。...

技术架构选型

数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。...

技术架构选型

根据阿里巴巴OneData方法论最佳实践,在设计数据模型前,您需要完成技术架构的选型。本教程中使用阿里云大数据产品Dataphin配合MaxCompute,完成整体的数据建模和研发流程。完整的技术架构如下图所示。其中,Dataphin的数据集成及同步负责...

快速体验

技术选型 数据建模:数据开发治理平台 DataWorks数据建模(可选),标准版及以上版本可使用,需要单独购买。原始数据存储:云数据库 RDS MySQL(必选),本实验中DataWorks为您提供了阿里云RDS MySQL用于测试,包含了测试数据,无需您...

计算设置概述

亚信DP5.3 Hadoop 基于开源生态,依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB Transwarp ArgoDB是星环科技的分布式分析性数据库。说明 星环ArgoDB不支持智能研发版。设置Dataphin实例的计算引擎为TDH或ArgoDB 星环...

互联网、电商行业离线大数据分析

概述 电商网站的销售数据通过大数据进行分析后,可以在屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据,触控大屏支持您自助查询数据,极地提高数据的可读性。应用场景 电商...

文档修订记录

创建数仓分层 配置及使用数仓分层检查器 2023.3.16 新增功能 数据建模 DataWorks智能数据建模联合具备丰富行业建模经验的数据架构师,总结阿里云百万用户最全面的业务场景,结合阿里巴巴技术创新能力,提供零售电子商务、金融、制造等多个...

概述

数据同步服务的内核在阿里巴巴跨域长途实时同步、实时增量分发、分布式数据库、大数据等场景中提供着功能丰富和服务稳定的数据方案,支持着阿里巴巴交易异地多活、广告、搜索、大数据实时抽取、商务对账单等双十一媒体大屏等众多业务场景。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 云数据库 RDS 数据库备份 DBS 云数据库 Redis 版 云服务器 ECS 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用