大数据分析架构-大数据分析架构文档介绍内容-阿里云

常见术语

云原生数据湖分析（简称DLA）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库（RDS\PolarDB）与消息实时归档建仓，提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统Hadoop方案...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

Napatech案例

Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与各类大数据平台集成，完成数据的大规模离线分析。基于Lindorm的解决方案，用户在采用到100Gbps+流量产生的大量数据包元数据直接通过...

数据洞察

DataWorks数据洞察是指通过深度数据分析和解读来获取深刻的数据理解和发现，它支持数据探索和可视化。您可以通过数据洞察了解数据分布，创建数据卡片，并组合成数据报告。此外，数据洞察结果能够通过长图形式的报告进一步分享。该功能利用...

数据下载

在DataWorks的数据开发（DataStudio）、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能，您可将所需历史下载文件重新下载至本地使用，也可追溯历史下载记录的操作详情。前提条件已通过如下模块...

DataWorks V3.0

DataWorks V3.0核心特性支持多种计算引擎 DataWorks V3.0全新升级了多引擎插件化架构，在DataWorks V2.0版本仅支持MaxCompute计算引擎的基础上，新增开源大数据引擎E-MapReduce、交互式分析和图计算服务（Graph Compute）等引擎服务。...

AnalyticDB MySQL助力Flowerplus业务高速发展

由此可见，Flowerplus对大数据分析的实时性要求较高，而传统的MySQL数据库无法满足这一需求。复杂数据查询性能使用传统MySQL数据库对订单、商品流量、采购、业务转化率以及商品售罄报警等分析时速度较慢，数据达到千万级或者亿级时，复杂...

应用场景

该方案优势如下：全托管免运维弹性扩展能力开放数据湖架构一站式的数据开发平台数据查询与分析场景在传统数据平台下，数据仓库工程师和数据分析师通常面临两个不同的环境，甚至使用不同的引擎和语法，导致数据指标和算子行为存在差异...

政务舆情分析系统的数据库解决方案

阿里云电子政务云舆情分析系统架构阿里云电子政务云使用表格存储，并结合计算、搜索、大数据类产品，为您推荐以下政务场景下的舆情监测系统架构：架构说明：云服务器ECS：爬虫引擎可部署于阿里云ECS，可以根据爬取量决定使用ECS的机器资源...

什么是云原生数据湖分析

云原生数据湖分析（简称DLA）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库（RDS\PolarDB\NoSQL）与消息实时归档建仓，提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统...

快速体验

DataWorks的数据分析功能为企业提供了全面的数据分析和服务共享能力，可便捷地连接多种数据源、支持SQL查询，并提供电子表格等多样化的数据分析工具，以满足企业日常的数据提取和分析需求。本文将通过MaxCompute引擎在SQL查询中对公共数据...

MongoDB实例空间使用率高问题

分⽚集群架构当云数据库MongoDB实例为分片集群架构时，您可以登录 MongoDB管理控制台通过以下方法查看空间使用情况：监控图分析在监控信息页面，选择目标节点，查看目标节点的磁盘空间使用量（Bytes）和磁盘空间使用率（%）。...

数据分析整体趋势

Hadoop也在早期的MapReduce接口基础上增加了SQL接口，SQL语法逐渐成为大数据分析系统的标准配置。随着AWS，Azure，Alibaba，Google等云厂商的出现，云原生分布式数据仓库成为目前数据分析技术的主要解决方案，代表性云服务包括Amazon ...

Superset连接数据湖分析

本文主要介绍如何使用Superset连接DLA进行数据分析。背景信息 DLA对外暴露的是MySQL的协议，大多数BI工具可以使用MySQL连接器直接连接DLA，由于Superset对于表的定义语句校验严格，同时DLA的建表语句与MySQL的建表语句存在差别，这导致...

发布包总览概述

您可以在发布包总览页面根据功能板块（规划、数据架构、研发、标签架构、标签、数据标准、数据质量、数据安全），对不同类型、不同状态的待发布对象类型进行发布及管理操作。规划：您可以对规划对象执行发布、查看版本详情（数据源对象类型...

发布包总览概述

您可以在发布包总览页面根据功能板块（规划、数据架构、研发、标签架构、标签、数据标准、数据质量、数据安全），对不同类型、不同状态的待发布对象类型进行发布及管理操作。规划：您可以对规划对象执行发布、查看版本详情（数据源对象类型...

应用场景

大数据存储与分析传统的数据分析场景下，用户需要把数据从在线数据库（Operational Database）复制到离线数据仓库（Data Warehouse）上之后再进行数据分析，这需要海量数据的多次复制、传输、加载和存储等多方面工作。HybridDB for MySQL...

规格及选型

案例四：自动驾驶企业用户为自动驾驶领域企业，需要基于车采数据进行地理位置和时序的采集数据分析，要求对JSON格式的友好兼容和时空数据的分析能力，构建业务看板并支持特征工程。建议：使用 AnalyticDB PostgreSQL版存储弹性模式，实例...

产品优势

全托管的Databricks数据洞察大数据分析平台，可以让您从繁杂的环境运维、内核优化等工作中解脱出来，专注于开发Spark作业本身。本文介绍Databricks数据洞察的产品优势。高效稳定产品内核使用Databricks商业版的Runtime和Delta Lake。与...

X-Engine简介

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

基于混合负载的查询优化

Batch模式：采用批计算架构，通过DAG进行任务切分，分批调度，满足有限资源下大数据量计算，支持计算数据落盘，适用于计算量大，吞吐高的复杂分析场景。资源池混合负载隔离 AnalyticDB MySQL版弹性版本支持资源池多租户隔离。通过一个实例...

构建数据仓库

构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业适用。方案优势：阿里巴巴大数据最佳实践，高性能、低成本、Serverless服务，免运维、全托管模式，让企业的大数据研发人员更聚焦在业务数据的开发、生产、治理。产品组合：...

数据可视化展现

本文为您介绍如何通过DataWorks数据分析实现用户画像数据可视化展示。前提条件在开始试验前，请确认您已经完成了加工数据。即已通过数据开发DataStudio将数据加工为用户画像基本数据。数据分析场景本案例通过数据分析对用户画像数据进行...

即席分析概述

即席分析面向一线业务人员，以表格形式提供拖拽式的表格分析能力，让懂业务的人自助实现数据分析。即席分析只适用于Quick BI专业版的群工作空间下，个人空间不支持。产品定位千万级别规模数据量下的低门槛数据探查及分析工具。核心能力 ...

Transaction Table2.0概述

针对这些问题近几年大数据开源生态也推出了各种解决方案，最流行的就是Spark/Flink/Presto开源数据处理引擎，深度集成开源数据湖Hudi、Delta Lake和Iceberg三剑客，践行统一的计算引擎和统一的数据存储思想来综合提供解决方案，解决Lamdba...

产品优势

云原生数据湖分析DLA（Data Lake Analytics）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库与消息实时归档建仓。DLA提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统Hadoop...

背景信息以及准备工作

DLA可以对投递到OSS上的数据按年、按月、按日进行多维度的分区，提高数据的命中率，降低扫描量，从而以极低的成本、极高的性能来完成大数据量历史数据分析。DataV中有多种场景模板，解决您的设计难题。提供多种业务模块级别而非图表组件的...

如何对JSON类型进行高效分析

PolarDB 列存索引（In Memory Column Index，IMCI）功能推出了完备的虚拟列与列式JSON功能等，可以快速处理大数据和多种数据类型（包括结构化数据与半结构化数据等），并提供高效的数据分析、查询与流计算能力，适用于数据分析、数据仓库与...

物联网数据处理分析架构参考

本文以一个企业案例介绍如何基于阿里云物联网平台的数据服务，搭建企业物联网大数据应用架构。背景信息随着物联网应用场景的深入，企业开始挖掘设备上传的数据，用于客户端应用扩展和服务营收，用于数字化运营、风控，帮助企业高效治理，...

数据可视化展现

在数据分析模块，DataWorks为您提供数据可视化工具，能够将加工后的数据以图表形式直观展示，便于您快速提取关键信息。本文将以场景示例形式，为您介绍如何用DataWorks完成用户画像数据的可视化展示。前提条件在开始示例前，请确认您已经...

物联网设备数据上云存储

业务基于 TSDB 进行数据分析、监控和大数据分析。物联网平台规则引擎物联网设备基于消息 Topic 进行通信，使用规则引擎对 Topic 中的数据进行处理然后转发到 TSDB。只需要在规则引擎中配置一些简单的规则，就可以将设备数据存储到指定的...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

Quick引擎概述

“慢”虽然只是一种难以精确定义的体感，但想要解决以上问题，就需要BI产品拥有很强的大数据处理架构和能力，可以横向扩展支持不断增长的数据量和计算任务。Quick引擎架构在数据源和数据集之间，用来处理上层数据作品发送到数据集最终下放...

健康检查服务内容说明

架构健康检查的主要针对业务系统和大数据应用的现有架构，通过对各业务系统的主机、网络、存储等各方面的运行参数和指标分析，提供综合的健康检查结果和结论。服务范围不包含：针对架构改造的技术支持；对业务系统和大数据应用的开发；具体...

功能特性

Serverless Presto概述 DLA Serverless Spark DLA Serverless Spark基于云原生架构，提供面向数据湖场景的数据分析和计算。开通DLA服务后，您只需简单的配置，就可以提交Spark作业；无需关心Spark集群部署。Serverless Spark概述

DataWorks快速入门指引

教程指南教程列表示例场景操作难度预计时长 大数据AI公共数据集分析 DataWorks、MaxCompute 使用DataWorks快速分析公共数据集的数据。15分钟 Github实时数据同步与分析 DataWorks、Hologres、DataV 基于GitHub Archive公开数据集实时...

分析平台概述

Dataphin提供了简单、快速、高效的数据分析平台，您可通过数据分析对数据仓库中的数据进行洞察、在线查询及可视化分析，提取出有效信息而形成结论，辅助决策。前提条件需开通智能研发版。分析平台简介在分析平台上，您可选择您有权限的...

列存索引（IMCI）发布说明

PolarDB MySQL版重磅推出的列存索引（In-Memory Column Index，简称IMCI）面向OLAP场景大数据量复杂查询。通过列存索引，PolarDB MySQL版实现了一体化的实时事务处理和实时数据分析的能力，成为一站式HTAP数据库产品解决方案。通过一套...

大数据分析架构

新品推荐