大数据分析和内存计算-大数据分析和内存计算文档介绍内容-阿里云

治理效果

单击趋势分析后的计算，默认展示30天内存计算优化量和治理率的数据趋势。说明数据展示的方式及意义与存储页面一致。项目治理明细项目治理明细模块默认以项目和业务板块为维度，为您展示所有项目下的项目名称、业务板块、负责...

治理效果

单击趋势分析后的计算，默认展示30天内存计算优化量和治理率的数据趋势。说明数据展示的方式及意义与存储页面一致。项目治理明细项目治理明细模块默认以项目和业务板块为维度，为您展示所有项目下的项目名称、业务板块、负责...

ECS选型最佳实践

d：表示大数据型（big data）处理器与内存配比为1:4，适用于Hadoop MapReduce、HDFS、Hive、HBase等大数据计算和存储业务场景，Elasticsearch、Kafka等搜索和日志数据处理场景。s：表示共享型（share）t：表示突发型（burst）e：表示经济型...

数据源配置概述

当前计算源类型仅支持阿里云大数据计算服务MaxCompute。仅支持添加一个计算源。分析源：从计算源拉取数据时，经计算源整合后的数据将导入分析源。后续使用这些数据进行洞察分析时，将直接从分析源获取。当前分析源类型支持阿里云实时数仓...

概述

如果使用自建开源大数据生态体系，例如Hive、Spark等，需要专门的大数据工程师来操作和运维，且操作流程也不像使用MySQL一样简单，成本极高。解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB...

基于TairSearch构建股票K线实时计算服务

证券商会从交易所接收近乎实时的股票行情原始数据，并从以上数据中实时地计算出日K线、5分钟K线等指标，而且投资交易行业对行情分析的实时性要求极高，大量的实时计算和访问请求是证券商等股票行情提供应商的重要挑战。TairSearch是集缓存...

排查Redis实例内存使用率高的问题

在性能监控页面查看实例的内存使用率和数据节点的内存使用率，发现实例的内存使用率不高，但某个数据分片节点的内存使用率较高。问题原因如果实例的内存使用率不高，但某个数据分片节点的内存使用率较高，说明发生了内存倾斜。解决方案 ...

StarRocks概述

本文为您介绍什么是StarRocks，以及StarRocks的特性和应用场景。StarRocks介绍 StarRocks是新一代极速...统一分析通过使用一套系统解决多维分析、高并发查询、预计算、实时分析和Ad-Hoc查询等场景，降低系统复杂度和多技术栈开发与维护成本。

兼容性概述

BI分析工具连接MaxCompute，能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源，为您带来更高效的数据分析体验。为了帮助您更清晰地使用BI工具连接访问MaxCompute，本文为您介绍MaxCompute支持连接的BI分析工具，以及工具与...

选型配置说明

Task节点选型 Task节点主要用来补充Core节点CPU和内存计算能力的不足，节点并不存储数据，也不运行DataNode。您可以根据CPU和内存需求来估算实例个数。E-MapReduce生命周期 E-MapReduce支持弹性扩展，可以快速的扩容，灵活调整集群节点配置...

TPC-H

复杂关联分析：多表Join、相关查询、数据多维过滤和高精度数值计算等，不仅对优化器是挑战（如何解相关、选择最优Join顺序、选择表的分发方式等），对计算引擎的实现也是挑战（内存管理、代码生成、执行调度等）。大批量实时写入：亿级数据...

概述

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

产品架构

TSCompute 是负责时序数据实时计算的组件，重点解决监控领域常见的降采样转换和时间线聚合需求，通过Lindorm Stream进行数据订阅，并完全基于内存计算，所以，整体非常的轻量、高效，适合系统已预置的计算功能。针对部分灵活复杂的分析需求...

升级和降配

在变配页面，配置升级后所需的CU数量，并勾选 大数据计算服务MaxCompute服务等级协议和阿里云产品服务协议-MaxCompute，单击立即购买。订单价格计算规则如下：升级订单价格计算=新配置剩余时长购买金额（新配置的月单价/30/24×剩余时...

版本发布记录

深度集成的生态接入融合分析和数据回流能力目前支持如下数据源的接入融合分析和数据回流能力，包括对象存储OSS上7种以上结构化、半结构化、以及多种压缩格式的数据文件，表格存储，AnalyticDB，云数据库版或自建数据库（MySQL、...

查询执行模式

适用场景：适用于执行时间长、计算数据量大的查询。例如：清洗类查询（Extract-Transform-Load）。默认执行模式版本产品系列默认执行模式是否支持Batch模式数仓版（3.0）预留模式集群版 Interactive 否弹性模式集群版（新版）是切换...

查询报错问题

errorCode=65541,errorName=NO_NODES_AVAILABLE,errorType=INTERNAL_ERROR,errorLocation=null,failureInfo=mpp.client.FailureInfo@13887b2e} 一般是数据库内部某个计算节点压力较大导致该节点暂时离线，系统能够自动修复。请用户过5~10...

什么是云原生数据湖分析

云原生数据湖分析（简称DLA）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库（RDS\PolarDB\NoSQL）与消息实时归档建仓，提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统...

排查内存使用率高的问题

步骤一：分析内存使用情况查询指定时段的内存使用率信息，具体操作，请参见查看监控数据。以下示例中，内存使用率（即 Memory Usage 监控指标）持续接近100%，如下图所示：图 1.内存使用率示例说明对于集群架构或读写分离架构的...

性能调优

AnalyticDB MySQL版做为分布式系统，其优势在于利用多机并行的能力，提升海量数据的处理速度，适合大数据量的分析。在某些场景中，查询计算量不是特别大，AnalyticDB MySQL具备分布式开销，反而查询较慢。也有某些场景下，AnalyticDB ...

避免下盘

数据倾斜导致的算子下盘数据倾斜也是一种常见的会导致算子下盘的因素，数据倾斜会导致单个Segment上的数据量和计算量远远超过其他Segment，导致可用内存不够算子下盘。对于数据倾斜的检测和消除，请参见数据倾斜诊断。

产品系列

适用场景包含构建海量数据实时写入和复杂ETL计算的实时数据仓库、大数据量的复杂查询、历史数据分析、日志分析等业务场景。数仓版（3.0）弹性模式包括两种形态：单机版和集群版。单机版单机版即单节点部署，不具备分布式能力。单机版支持...

配置跨库Spark SQL节点

在数据仓库中对数据进行加工分析后，往往需要将数据同步回在线库中，以便在线应用提供相关的数据分析和统计服务。示例：某消费服务平台使用的是MySQL数据库，需要在数据仓库 AnalyticDB PostgreSQL版中对消费数据进行消费金额、消费笔数等...

Serverless Presto概述

因此它采用全内存流水线化的执行引擎，相较于其它引擎会把中间数据落盘的执行方式，Presto在执行速度上有很大的优势，特别适合用来做Adhoc查询、BI分析、轻量级ETL等数据分析工作。阿里云数据湖分析团队在Presto之上又进行了很多的优化，...

在大数据平台中集成Tair

本文介绍如何在不同大数据分析平台中接入云原生内存数据库Tair。常见大数据分析平台集成 Tair 的方法如下：大数据开发治理平台DataWorks：请参见配置Redis Writer插件。说明 Tair 完全兼容Redis，您可以参考该文档配置 Tair 实例信息，但...

Tair开发运维规范

避免业务混用，尤其需要避免将同一 Tair 实例同时用作高速缓存和内存数据库业务。带来的影响例如针对某个业务淘汰策略设置、产生的慢请求或执行 FLUSHDB 命令影响将扩散至其他业务。设置合理的过期淘汰策略。Tair 默认的默认逐出策略为 ...

如何对JSON类型进行高效分析

PolarDB 列存索引（In Memory Column Index，IMCI）功能推出了完备的虚拟列与列式JSON功能等，可以快速处理大数据和多种数据类型（包括结构化数据与半结构化数据等），并提供高效的数据分析、查询与流计算能力，适用于数据分析、数据仓库与...

什么是EMR Serverless StarRocks

数据的存储和内存中的组织、SQL算子的计算都基于列式实现，使得CPU缓存使用更有效，减少了虚函数调用和分支判断，从而实现更顺畅的CPU指令流水线操作。利用CPU提供的SIMD（Single Instruction Multiple Data）指令，StarRocks的全面向量化...

OOM常见问题排查指南

计算内存高表现为Query内存使用率高：运行任务时扫描大数据量或者计算逻辑非常复杂，例如有非常多的Count Distinct函数、复杂的Join操作、多字段Group By、窗口操作等。主要影响影响稳定性当存在元数据过大等问题时，会超额占据正常...

产品架构

BE BE负责SQL计算和数据存储的任务，采用本地存储和多副本机制以提高系统的可用性。数据存储：BE节点在存储方面完全均等，没有主次之分。数据由前端节点（FE）根据特定政策分配到各个BE节点，其中BE节点负责将接收的数据转换成可存储的格式...

DataWorks On EMR使用说明

计算和存储费用运行计算引擎任务时，可能会产生计算引擎的计算和存储费用。网络服务费用连通DataWorks和其他相关产品的网络环境时，可能会产生网络服务费用。例如，使用高速通道、共享带宽、EIP等产品连通网络时，会产生相应产品的服务...

规格容量评估

在购买或升缩配阿里云Elasticsearch集群前，您可以根据本文提供的相对通用的评估方法，初步评估集群所需资源的规格容量，包括节点规格、节点存储空间和节点数量。创建索引前或遇到节点间磁盘使用率差距很大、节点CPU使用率呈现明显的负载不...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

Flink VVP+DLF数据入湖与分析实践

背景信息阿里云实时计算Flink版是一套基于Apache Flink构建的实时大数据分析平台，支持多种数据源和结果表类型。Flink任务可以利用数据湖统一存储的优势，使用Hudi结果表或Iceberg结果表，将作业的结果输出到数据湖中，实现数据湖分析。在...

混合存储型（已停售）

与 Redis社区版不同，Tair 混合存储型整合了内存和磁盘二者的优势，在提供高速数据读写能力的同时满足了数据持久化的需求。说明混合存储型已停止售卖，更多信息，请参见【通知】Redis混合存储型实例停止售卖。推荐选择持久内存型实例。...

JindoFS实战演示

指定表和分区预先缓存，查询分析更高效指定表和分区预先缓存，查询分析更高效 2021-06-29 在存储分离架构中，计算节点剩余的磁盘、内存资源可以用于缓存加速。在通过JindoFS SDK访问OSS数据前，可先指定表和分区预先缓存数据，在后续查询...

羲和分析计算引擎

面向海量数据的云原生数仓需要满足不同的数据分析场景，包括在线报表，在线交互式分析，以及ETL等。不同的场景依赖分析计算引擎自适应的采用不同的查询优化技术，包括按需的动态代码编译，CPU友好的内存数据布局，以及自适应的并行度调整等...

基于Delta lake的一站式数据湖构建与分析实战

2.统一元数据服务对象存储本身是没有面向大数据分析的语义的，需要结合Hive Metastore Service等元数据服务为上层各种分析引擎提供数据的Meta信息。数据湖计算与分析相比于数据仓库，数据湖以更开放的方式对接多种不同的计算引擎，如传统...

Spark概述

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

云数据库Redis开发运维规范

避免业务混用，尤其需要避免将同一Redis实例同时用作高速缓存和内存数据库业务。带来的影响例如针对某个业务淘汰策略设置、产生的慢请求或执行 FLUSHDB 命令影响将扩散至其他业务。设置合理的过期淘汰策略。云数据库Redis默认的默认逐出...

大数据分析和内存计算

新品推荐