大数据分析应用方面-大数据分析应用方面文档介绍内容-阿里云

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

基础常问类问题

它不仅是面向业务人员的数据分析工具，也是数据化运营的助推器，更是解决大数据应用“最后一公里”的神器。针对只用过Excel，想要迁移到Quick BI的人群，有哪些入门文档？请参见入门概述和业务背景介绍和快速连接数据源。控制台上案列...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

功能简介

提供数据加工的素材您可以将数据导出到MaxCompute等大数据计算服务，和其他数据（故障信息和其他数据源的数据等）联动做二次处理。数据加工后，可用于报表分析，帮助您做出业务决策。开服地域云服务地域名称所在城市地域ID 亚太-中国 ...

什么是数据库网关

全生态服务：通过数据库网关，各种数据库产品将逐步接入，实现跨云和云上云下的全生态服务（如数据库迁移、容灾、跨库JOIN、数据分析、数据安全等能力），保证您享受云端数据库产品带来的一致性服务。数据库网关的更多功能特性和场景，请...

什么是EMR Serverless StarRocks

StarRocks介绍 StarRocks是一款支持MySQL协议的分析型数据库，它集成了向量化处理、MPP架构、代价基础优化器（CBO）、智能物化视图和实时更新的列式存储技术，从而实现了快速、实时、高效的多维数据分析。您可以轻松地将实时或离线数据源...

创建DataHub项目

阿里云流数据处理平台DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布（Publish），订阅（Subscribe）和分发功能，让您可以轻松构建基于流式数据的分析和应用。前提条件您已经完成了创建RDS MySQL数据库表。操作...

什么是Quick BI

通过数据门户您可以制作复杂报表系统，也可以制作面向某一专题（例如，用户分析、商品分析、库存分析等）的数据分析应用。电子表格通过在线电子表格进行数据分析，或者制作复杂的中国式报表用于监管报送及打印。只要是可以熟练使用Excel的...

产品系列

适用场景包含构建海量数据实时写入和复杂ETL计算的实时数据仓库、大数据量的复杂查询、历史数据分析、日志分析等业务场景。数仓版（3.0）弹性模式包括两种形态：单机版和集群版。单机版单机版即单节点部署，不具备分布式能力。单机版支持...

应用管理

概述应用是实际的埋点程序，Quick Tracking系统共支持3类应用，APP、网站和小程序。操作说明 1.页面组成“应用管理”主要是由以下几个部分组成 1.组织筛选框：默认展示全部组织，在这里筛选组织后，下面的应用列表会对应展示这些组织下的...

概述

优势云原生数据仓库AnalyticDB PostgreSQL版向量数据库通过自研向量引擎FastANN提供的向量分析能力目前已经在诸多业务中得到了广泛应用，包括阿里巴巴数据中台，阿里巴巴电商新零售业务，阿里云城市大脑，通义千问大模型搭建的问答服务等...

Spark概述

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

文档修订记录

订阅成功后，账单数据会定时同步至MaxCompute，您可使用DataWorks的数据分析功能查询并分析账单数据，将分析结果生成可视化图表卡片及报告，同时，也可将您的阿里云消费分析报告分享给其他用户。账单数据订阅及查询分析 2024.2.21 新增功能...

查询报错问题

查询时报错，提示 scanRows exceed limit 分析型数据库MySQL版查询时报错，错误信息为：ErrMsg:ErrCode:2001 ErrType:QUERY_EXCEED_LIMIT ErrMsg:scanRows exceed limit:xxx>为避免用户输入的SQL误写或性能较差，从而导致扫描表的大量数据...

PolarDB HTAP实时数据分析技术解密

在处理大数据量下复杂查询所需要的能力方面，如优化器处理子查询的能力、高性能算子HashJoin、SQL并行执行等。社区将其处于低优先级，因此MySQL的数据分析能力提升进展缓慢。随着MySQL的发展，用户使用其存储了大量的数据，并且运行着关键...

Serverless模式

您的历史数据无需再迁移到其他存储介质上，让数据分析更简单、高效、低成本，一站式解决金融、互联网等行业快速增长的数据分析需求。对高吞吐写入场景和高性能跑批业务进行了设计优化，同时提供了弹性伸缩能力，适合业务数据量大、并具有...

DLA Lakehouse实时入湖

数据库路径数据表路径数据表文件进行数据分析。工作负载任务启动成功后，在数据湖管理>元数据管理页面中，查看从RDS数据源同步过来的元数据信息。单击操作列的查询数据，在 Serverless Presto>SQL执行页面，查看从RDS数据源同步...

什么是数据库审计

在审计日志统计分析方面，数据库审计服务采用综合性统计分析报表，基于日报、周报、月报等基础型业务报表（可设置自动定时发送），并结合专项性的模式分析类报表，开启数据库审计产品报表展现形式的新纪元。审计查询方式支持单库（单个数据...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

CloudLens概述

CloudLens基于日志服务构建统一的云产品可观测能力，通过日志、指标、配置计量等数据的关联分析，提供阿里云产品的用量分析、性能监控、安全分析、数据保护、异常检测、访问分析等服务。从成本、性能、安全、数据保护、稳定性、访问分析六...

基本概念

M MaxCompute 大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的TB、PB级数据仓库解决方案，提供了完善的数据导入方案以及多种经典的分布式计算模型，能够快速地解决海量数据计算问题。通过数据集成服务，可将Lindorm数据导入...

分析温湿度时序数据

数据分析是物联网应用开发（IoT Studio）的一个重要组件，通过数据分析组件，可简单查阅各数据中各事件维度的统计值，例如平均值，最大值，最小值等。支持通过图表选择不同的数据维度，探索各数据之间的关系。操作步骤登录 数据分析控制台...

数据大屏

应用场景场景描述预期效果场景一：授予数据大屏编辑权限让分析师A（分析师A与资源在同一空间）可以在工作空间下编辑数据大屏。场景二：授予数据大屏的查看权限让访问者B（访问者B与资源不在同一空间）可以在工作空间下查看数据大屏。...

什么是用户体验监控

以用户体验为切入点，完整再现用户操作过程，从页面打开速度（测速）、请求服务调用（API）和故障分析（JS错误、网络错误等）稳定性（JS错误、崩溃、ANR 等）方面监测前端应用性能表现情况，并支持日志数据查询，帮助您快速跟踪定位故障...

基于MaxCompute进行大数据BI分析

方案介绍基于MaxCompute进行大数据BI分析的流程如下：通过数据集成同步业务数据和日志数据至MaxCompute。通过MaxCompute、DataWorks对数据进行ETL处理。同步处理后的结果数据至AnalyticDB MySQL。通过Quick BI可视化建立用户画像。方案...

Doris概述

统一数仓构建：一个平台满足统一的数据仓库建设需求，简化繁琐的大数据软件栈。基于Doris构建的统一数仓，替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构，架构大大简化。数据湖联邦查询：通过外表的方式联邦分析位于Hive、...

MongoDB 6.0新特性概览

时序集合（Time Series Collection）时序集合是MongoDB 5.0版本发布的功能，主要应用于时序数据分析型场景。从5.0版本开始，时序集合的功能更新记录如下：版本更新说明 MongoDB 5.0 首次发布。MongoDB 5.1 引入分片（Sharding），以支持更...

2023年

前端监控/用户体验监控 数据分析 新增支持多维筛选分析能力，提供灵活的数据查询探索能力。数据探索监控数据新增完整展示网页、资源（API请求等）加载过程中的错、慢等异常情况。资源加载监控大盘新增联动Prometheus、Grafana，预置...

2023年

支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。本文为您介绍如何使用Notebook功能。（邀测）MaxCompute Notebook使用说明 2023-09-12 新增在本地环境上使用PyODPS 新说明 PyODPS是...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

轮播页面

数据面板（默认模式）说明组件数据面板默认是默认模式，您可以单击切换数据面板右上角的分析模式，即可在弹窗对话框内，确认将组件转为分析模式并创建分析器，并单击确认变更，使用DataV数据集提供的分析模式功能后，当前组件会转换成...

概述

存储格式数据来源及特点数据量增大或减少详细数据量 JSON 大量应用产生JSON类型的数据，冗余数据量大。增大151.7%3.02GB AVRO Hadoop生态格式的数据，数据由大部分遗留系统产生。增大8.3%1.3GB RCFile Hadoop生态格式的数据，数据由大...

典型使用场景

数据查询分析 AnalyticDB PostgreSQL版既通过索引排序等特性支持高并发低延时的多维度点查范围查场景，也通过向量化引擎，CBO优化器，列式存储支持大数据量多表关联聚合的复杂分析场景。例如，数据类业务应用对ADS层数据进行快速查询；...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

读写RDS MySQL数据

因为RDS本身能承载的数据量有限，不适合大数据分析。更多的场景是在DLA中对存储在OSS、Tablestore中的大数据进行分析，分析完成之后把结果数据回写到RDS中，供前台业务使用。DLA如何读取OSS中的数据，请参见操作步骤。以 person 表为例，...

什么是数据库网关

DG相关服务相关服务说明数据传输服务DTS 数据传输服务DTS（Data Transmission Service）是阿里云提供的实时数据流服务，支持关系型数据库（RDBMS）、非关系型的数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步...

产品架构

基于以上产品能力，您可以更加高效地聚焦于自己的业务应用，例如运营分析、用户画像、自助报表、订单分析以及用户报表生成等方面。StarRocks系统架构 StarRocks架构的核心只有FE（Frontend）、BE（Backend）或CN（Compute Node）节点，方便...

X-Pack高级特性

X-Pack高级特性（开源Elasticsearch白金版）是基于开源Elasticsearch原X-Pack商业版插件开发的，包含了安全、SQL、机器学习、告警、监控等多个高级特性，从应用开发和运维管理等方面增强了Elasticsearch的服务能力。阿里云Elasticsearch...

应用场景

OceanBase 数据库可以利用分区表特性将数据打散后分布到集群的多个节点上，从而满足一部分的查询需求，之后利用强一致性全局索引功能来满足其它维度的查询和分析需求，在数据库层面实现了数据分片和水平扩展能力，并且对用户透明。...

大数据分析应用方面

新品推荐