数据倾斜诊断

复制分布方式通常只会用在数据量小的表中,如果数据大的表使用复制分布方式,会导致数据急剧膨胀。哈希(HASH)分布 该分布方式会根据分布键HASH值将数据分布到各个计算节点上,该方式的关键在于如何选择分布键,分布键选择不正确时,...

产品系列

适用场景包含构建海量数据实时写入和复杂ETL计算的实时数据仓库、大数据量的复杂查询、历史数据分析、日志分析等业务场景。数仓版(3.0)弹性模式包括两种形态:单机版和集群版。单机版 单机版即单节点部署,不具备分布式能力。单机版支持...

准备数据源和计算

在使用Dataphin前,您需要选择符合业务场景需求的数据库或数据仓库作为数据源,用于读取原始数据和写入数据建设过程中的数据;同时您需要准备MaxCompute项目、Flink项目作为Dataphin的计算源,为数据的研发提供计算资源。准备数据源 ...

准备数据源和计算

在使用Dataphin前,您需要选择符合业务场景需求的数据库或数据仓库作为数据源,用于读取原始数据和写入数据建设过程中的数据;同时您需要准备MaxCompute项目、Flink项目作为Dataphin的计算源,为数据的研发提供计算资源。准备数据源 ...

MaxFrame概述

MaxFrame是由阿里云自研的分布式计算框架,支持Python编程接口、兼容Pandas接口且自动进行分布式计算,同时可直接使用MaxCompute计算资源及数据接口,与MaxCompute Notebook、镜像管理等功能共同构成了MaxCompute完整的Python开发生态。...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中,也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件 导入导出数据使用MaxCompute Tunnel,因此要求MaxCompute ...

发展历程

2022年 自研一体化大数据计算平台和数据仓库产品ODPS获世界互联网领先科技成果奖。在TPCx-BB 100TB标准测试中,连续6次获得全球冠军,保持性能和性价比第一。Forrester:每两年一次的全球云数仓评测中,进入卓越表现者象限,国内唯一。进入...

计算成本控制

由于MaxCompute的查询响应是分钟级,不适合直接用于前端查询,计算出的结果数据同步到外部存储中保存,对于部分用户来说,关系型数据库是最优先的选择。轻度计算推荐使用MaxCompute,重度计算(即直接出最终结果。前端展示时,不做任何...

DAS Auto Scaling弹性能力

背景信息 为业务应用选择一个合适的数据计算规格(CPU和内存),是每个数据库运维人员都会经常面临的一个问题。若规格得过,会产生资源浪费;若规格的过小,计算性能不足会影响业务。通常情况下,运维人员会采用业务平稳运行状态下...

技术架构选型

数据模型设计之前,您需要首先完成技术...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','language':'zh-CN',};

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...

ECS实例说明

大数据型 使用本地SATA盘作存储数据,存储性价比高,是大数据量(TB级别的数据量)场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点;Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型 使用本地...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性,并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。StarRocks...

TPC-H

复杂关联分析:多表Join、相关查询、数据多维过滤和高精度数值计算等,不仅对优化器是挑战(如何解相关、选择最优Join顺序、选择表的分发方式等),对计算引擎的实现也是挑战(内存管理、代码生成、执行调度等)。大批量实时写入:亿级数据...

双11气泡图

本文介绍双11气泡图全量选择时各配置项的含义。图表样式 双11气泡图是其他基础图表的一种,支持根据数值映射气泡的大小,能够使用气泡展示各类别的数据对比情况,适用于双11的商品对比可视化应用展示,例如展示手机、食品、衣服、家电等...

快速体验

数据存储与计算:云原生大数据计算服务 MaxCompute(必)、实时数仓Hologres(可)、开源数据平台E-MapReduce(可),您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度:数据开发治理平台 DataWorks数据...

评估合适的云服务

计算 计算服务 熟悉主要计算方案,针对各业务系统和工作负载,评估使用合适的计算方案。阿里云服务 类型 业务场景 主要特征 云服务器(ECS)云服务器 服务器迁移、整体应用环境、定制化镜像 运行于物理机之上、满足VM层面系统设置需求、...

存储空间分析

您可以在 AnalyticDB for MySQL 空间总览页面查看集群和表的总数据量、冷数据量、热数据量、索引数据量、分区数量、节点的磁盘使用率等指标。查看集群级别的数据量 通过 空间总览 可以查看当前集群的 总数据量、热数据量、冷数据量、以及 ...

数据

计算资源类型 选择需要同步到的目标数据源的类型,目前支持的目标数据源类型参见 适用场景 目标数据选择同步到的目标数据源。目标数据选择同步到的目标数据源中的表名。生命周期(可)设置目标表的留存天数,如未设置,默认将保留1...

复合指标

由于派生指标只是针对某业务活动某段时间的数据量统计,无法满足贴近用户实际使用的业务增长率、差值计算数据的比对需求(例如,统计某业务活动的周环比增长率)。因此,DataWorks为您提供了由派生指标通过运算规则进行计算而形成的复合...

Pandas API支持

MaxFrame提供了兼容Pandas的API接口,您可以用类似于Pandas的方式来操作MaxCompute中的数据,同时利用MaxCompute强大的分布式计算能力,简化您在大数据环境下的数据处理工作,本文为您介绍Pandas API的支持情况。当前MaxFrame支持的API详情...

数据上云工具

您可以根据实际应用场景,选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端(Tunnel通道系列)客户端基于 批量数据通道 的SDK,实现了内置的Tunnel命令,可对数据进行上传和下载,Tunnel命令的使用请参见 Tunnel命令...

什么是DataTrust

Party Computation,MPC)、联邦学习(Federated Learning,FL)、差分隐私(Differential Privacy,DP)等隐私增强计算(Privacy Enhancing Technique)技术打造的隐私增强计算平台,在保障数据隐私及安全前提下完成多方数据隐私求交、...

MaxCompute账单用量明细分析

配置参数说明如下:产品:选择 大数据计算服务MaxCompute(按量付费)。计量规格:大数据计算服务MaxCompute(按量付费)是按量付费模式的计量明细。ODPSDataPlus 是包年包月模式的计量明细。使用时间:单击下拉框选择开始时间和结束时间。...

规格及选型

本文将介绍如何选择 云原生数据仓库AnalyticDB PostgreSQL版 实例规格。实例资源类型 AnalyticDB PostgreSQL版 推荐使用存储弹性模式和Serverless版本两种实例资源类型:存储弹性模式 产品功能完整,使用存储计算一体架构,支持计算节点...

开发Dataphin数据源并加速数据查询

开发Dataphin数据源即将Dataphin中的逻辑表和物理表配置为供应用调用的Dataphin数据源,同时您可以为已开发的Dataphin数据源所在的计算空间添加Hologres加速计算源,以满足对查询速度有要求的业务场景。本文为您介绍如何开发Dataphin数据源...

Serverless GPU概述

而Serverless GPU则提供了一种更加灵活的方式来利用GPU计算资源,用户只需根据自己的实际需求选择合适的GPU型号和计算资源规模,即可随时启动和停止GPU计算,无需事先规划资源使用情况。Serverless GPU采用了一系列优化措施,以提高计算...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库,支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业,推荐您使用SQL查询或DataWorks的临时查询等工具,高效便捷地完成数据分析...

Serverless GPU概述

而Serverless GPU则提供了一种更加灵活的方式来利用GPU计算资源,用户只需根据自己的实际需求选择合适的GPU型号和计算资源规模,即可随时启动和停止GPU计算,无需事先规划资源使用情况。Serverless GPU采用了一系列优化措施,以提高计算...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型,提供TB、PB、EB级数据计算能力,能够更快速的解决用户海量数据计算问题,有效降低企业成本。功能集 功能 功能描述 参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

什么是图计算服务

计算服务Graph Compute是阿里云自主研发的高性能分布式图计算产品,为开发者提供万亿级数据规模的一站式图技术服务。Graph Compute支持复杂图关系数据的存储、查询和计算,高效对接图算法与模型,在搜索推荐广告、实时风控、知识图谱、...

新建Spark Batch类型的公共节点

输入数据格式 输入表的数据格式,由数据模型定义,在下拉列表中选择输入数据的逻辑表名称,表示该计算资源中提供数据数据表的结构。当选择数据表时,需保证输入的模型与上游节点的输出数据模型相同。当选择星号(*)时,代表数据结构为...

PyODPS概述

整个流程中,下载上传数据消耗了大量的时间,并且在执行脚本的机器上需要很大的内存处理所有的数据,特别是对于使用DataWorks节点的用户来说,很容易因为超过默认分配的内存值而导致OOM运行报错。高效处理代码demo from odps.df import ...

什么是MaxCompute

MaxCompute提供离线和实时的数据接入,支持规模数据计算及查询加速能力,为您提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型,您可以不必关心分布式计算和...

存储类型

说明 容量型云存储使用高密度磁盘存储阵列,提供极低成本存储能力,和高吞吐读写能力,但随机读能力较弱,适用于写多读少场景或大数据计算场景。宽表引擎、文件引擎、流引擎 不涉及。本地SSD盘 0.1ms~0.3ms 网络游戏、电商、视频直播、媒体...

世纪联华

本文介绍如何通过函数计算、API网关、日志服务及表格存储云服务,再配合Serverless架构的快速扩容、弹性高可用的特性,轻松解决世纪联华流量突增及服务器需求过大的问题。客户介绍 世纪联华是一个超过170余家,具有全国网点布局,在快速...

数据

适用场景 计算链路 计算引擎 是否支持 离线 MaxCompute 是 Hive 是 HiveStorage 是 RDS/MySQL 是 使用说明 选择计算资源 选择需要读取的数据源,支持的数据源类型参见 适用场景。选择输入表 选择需要读取的数据表。配置输出 配置需要输出到...

世纪联华

本文介绍如何通过函数计算、API网关、日志服务及表格存储云服务,再配合Serverless架构的快速扩容、弹性高可用的特性,轻松解决世纪联华流量突增及服务器需求过大的问题。客户介绍 世纪联华是一个超过170余家,具有全国网点布局,在快速...

2023年

该地域项目的存储、下载后付费账单归属的 产品明细 将从 大数据计算服务MaxCompute(包月)变成 大数据计算服务MaxCompute(按量付费),同时对应的用量明细选择的计量规格变成 大数据计算服务MaxCompute(按量付费)。当您使用的包年包月...

新零售:杭州数云信息技术有限公司

PolarDB 采用存储和计算分离的架构,提供分钟级的配置升降级、秒级的故障恢复、全局数据一致性和免费的数据备份容灾服务,既融合了商业数据库稳定可靠、高性能、可扩展的特征,又具有开源云数据库简单开放、自我迭代的优势。本文介绍杭州...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生大数据计算服务 MaxCompute 数据传输服务 云服务器 ECS 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用