大数据与数据分析-大数据与数据分析文档介绍内容-阿里云

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

Serverless Spark概述

解决方案 Serverless Spark是云原生数据湖团队基于Apache Spark打造的服务化的大数据分析与计算服务。方案架构图如下所示：Serverless Spark将Spark、Serverless、云原生技术，深度整合到一起，相对于传统开源Spark集群版方案，具体以下...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

Quick BI如何接入TSDB

Quick BI是一个基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台。通过对数据源的连接和数据集的创建，对数据进行即时的分析与查询；通过电子表格或仪表板功能，以拖拽的方式进行数据的可视化呈现。连入成功后，您可以在...

基于混合负载的查询优化

传统数仓方案，通过组合多套数据库与大数据产品，利用各自不同的优势来解决不同的分析场景，带来的问题就是整个数据冗余，同时管理多个异构系统的代价。完备数据仓库，首要解决的问题包括：如何更好的支持数据库场景下的交互式分析以及大...

如何对JSON类型进行高效分析

PolarDB 列存索引（In Memory Column Index，IMCI）功能推出了完备的虚拟列与列式JSON功能等，可以快速处理大数据和多种数据类型（包括结构化数据与半结构化数据等），并提供高效的数据分析、查询与流计算能力，适用于数据分析、数据仓库与...

Github实时数据同步与分析

实时数据分析与可视化实时数据分析。进入 HoloWeb SQL编辑器，查询实时更新的过去24小时GitHub最活跃项目。SELECT repo_name,COUNT(*)AS events FROM hologres_dataset_github_event.hologres_github_event WHERE created_at>=now()-...

数据查询与分析管控

您可通过管控数据源的查询权限功能，对其他用户或角色进行授权，授权时应注意：成员或角色被授权数据源查询权限后，将获得与数据源访问身份同样的权限。为保障数据的安全性（特别是生产数据），建议您合理规划后谨慎分配权限。标准模式...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库，支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业，推荐您使用SQL查询或DataWorks的临时查询等工具，高效便捷地完成数据分析...

Quick BI连接MaxCompute

背景信息智能分析套件Quick BI是一个专为云上用户量身打造的易上手、性能强的大数据分析及可视化平台，可以让每个人都能成为数据分析师。Quick BI不仅是业务人员查看数据的工具，更是数据化运营的助推器。更多Quick BI信息，请参见 Quick ...

面临的业务挑战

越来越多的企业大数据分析已不再局限于传统的T+1场景，对数据的实时性分析和处理要求提出了更高要求。传统的批处理模式往往有数小时甚至数天的延迟，不能满足T+0的业务需要，用户要求在秒级，甚至毫秒级完成对海量数据分析。系统极复杂大...

ActionTrail日志清洗

以操作DLA的账号为例，该账号下每天会产生几千个数据文件，一个月的文件数将达到几十万个，大量的数据文件对大数据分析非常不便，分析数据耗时，且需要足够大的集群资源才能进行大数据分析。前提条件使用ActionTrail日志清洗之前，您需要...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。...

物联网设备数据上云存储

业务基于 TSDB 进行数据分析、监控和大数据分析。物联网平台规则引擎物联网设备基于消息 Topic 进行通信，使用规则引擎对 Topic 中的数据进行处理然后转发到 TSDB。只需要在规则引擎中配置一些简单的规则，就可以将设备数据存储到指定的...

公交出行：启迪公交

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务...实时和汇总大数据分析系统，支持公交领导产生更加快速有效的业务决策。

在工作空间创建数据源或注册集群

工作空间创建完成后，您需要先将您的数据库或数据仓库，通过创建数据源的方式添加至DataWorks工作空间，或将您的集群注册至DataWorks工作空间，以便进行数据同步、数据分析与开发、数据调度等操作。本文主要以使用正式开发环境为例，为您...

功能发布记录（2024年）

2024.2.6 所有地域所有DataWorks用户系统配置 2024-01 功能名称功能描述发布时间发布地域使用客户相关文档数据开发与数据分析的查询结果支持脱敏展示数据保护伞支持对E-MapReduce表数据进行分类分级、敏感数据识别、数据脱敏展示...

我是普通用户

SQLConsole SQL窗口在单库查询中可以手动写SQL进行单库查询，适用于业务代码上线数据验证、产品效果数据分析、线上问题排查定位等场景。跨库查询跨数据库查询为不同环境下的在线异构数据源，提供及时的关联查询服务。库表结构结构设计 ...

读写RDS MySQL数据

因为RDS本身能承载的数据量有限，不适合大数据分析。更多的场景是在DLA中对存储在OSS、Tablestore中的大数据进行分析，分析完成之后把结果数据回写到RDS中，供前台业务使用。DLA如何读取OSS中的数据，请参见操作步骤。以 person 表为例，...

冷热分层

更多介绍请参见结构化大数据分析平台设计、面向海量数据的极致成本优化-云HBase的一体化冷热分离和云上如何做冷热数据分离。冷热数据数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据的数据量较大，很少被访问，甚至...

数据上云场景

MaxCompute平台提供了丰富的数据上传下载工具，可以广泛应用于各种数据上云的应用场景，本文为您介绍三种经典数据上云场景。Hadoop数据迁移您可使用MMA...具体场景示例请参见 Flume收集网站日志数据到MaxCompute 和海量日志数据分析与应用。

背景信息以及准备工作

背景信息 DLA作为无服务化的大数据分析服务，通过标准的SQL语句直接对存储在阿里云对象存储服务（Object Storage Service，简称 OSS）、表格存储（Table Store）中的数据进行清洗。例如，使用DLA对OSS中的历史数据按天进行清洗。DataWorks...

通过函数计算节点实现GitHub实时数据分析与结果发送

DataWorks提供“Github十大热门编程语言”模板，通过对GitHub中公开数据集进行加工和分析，并将分析结果以邮箱的方式发送给指定用户。运行本案例后，您将得到Github中Top10编程语言每小时被提交的次数与排行。说明手动配置与实际应用中的...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

后续指引

开发与分析 数据类型 MaxCompute支持三种数据类型版本，为您介绍各版本支持的数据类型、适用场景及各版本间的差异，避免开发过程中出现数据类型无法解析问题。介绍：数据类型常见问题：数据类型常见问题常用命令提供开发过程中的针对表...

数据传输与迁移概述

数据分析汇总与可视化展现。典型场景。类型典型场景数仓管理员对数据进行预览 DataWorks-数据分析、数据管理、数据开发调度（数据通道）。Kettle。商业智能，制作报表，看板 Quick BI。Superset。离线数据批量数据读取（外部表-湖仓一体...

功能发布记录（2023年）

2023.4.18 所有地域所有DataWorks用户 SQL查询大数据公共数据集上线基于大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等），通过DataWorks与MaxCompute快速完成TB级别大数据分析。2023.4.11 所有地域所有DataWorks用户 SQL...

Quick BI数据可视化

Quick BI支持连接云数据库 SelectDB 版实例，连接成功后，您可以在Quick BI上进行数据的分析与展示。本文为您介绍如何为Quick BI添加云数据库 SelectDB 版数据源。前提条件已为云数据库 SelectDB 版实例申请公网地址。具体操作，请...

数据可视化展现

数据分析场景本案例通过数据分析对用户画像数据进行可视化与分析，具体分析场景如下：场景图示城市注册人数排行榜注册会员访问次数年龄分布注册会员访问次数性别分布男女星座访问次数分析进入SQL查询页面本示例在数据分析的 SQL...

数据量

备份数据量通过备份链路的实际数据大小，与数据文件空间不同，备份数据量取决于数据库类型、备份方式、备份粒度等因素。存储数据量存放存储介质的实际数据大小，与备份数据量不同，存储数据量取决于备份数据量、备份数据存储格式、压缩...

通过Quick BI连接StarRocks实例

添加StarRocks数据源用于连通StarRocks数据库与Quick BI，连接成功后，您可以在Quick BI上进行数据的分析与展示。本文为您介绍如何通过Quick BI连接StarRocks实例。背景信息 Quick BI是由阿里云提供的一款全场景数据消费式的BI平台，无缝...

应用场景

大数据场景：海量数据存储与分析 Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势低成本：高压缩比，数据冷热分离...

什么是备份数据量

与数据文件空间不同，备份数据量取决于数据库类型、备份方式、备份粒度等因素。存储数据量存储数据量指存放存储介质的实际数据大小。与备份数据量不同，存储数据量取决于备份数据量、备份数据存储格式、压缩算法等因素。空间大小在单次全...

背景信息以及准备工作

或者对存储在阿里云对象存储服务（Object Storage Service，简称 OSS）、表格存储（Table Store）上的大数据进行分析之后，通过DLA把结果数据回写到MongoDB，供前台业务使用。前提条件使用DLA读写MongoDB数据前，您需要通过以下操作在...

使用流程

可选：应用评估改造：帮助用户分析应用与数据库的关联关系，并分析从源库迁移到目标库的应用改造点与改造位置，同时，也可减少使用Java开发的部分业务的改造工作量。1.数据库评估数据库采集数据库画像目标库选型建议数据库评估分析 ...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

任务调试流程

说明运行任务时，若查询的目标数据无权限，可参考引擎与数据权限管控概述了解DataWorks中各引擎的权限管控。运行方式描述场景选择运行（图标）支持为代码测试场景的变量赋值，以及指定调度资源组。相关赋值及指定的资源组会被记录，...

采集数据

您需要测试每个资源组的连通性，以保证同步任务使用的数据集成资源组能够与数据源连通，否则将无法正常执行数据同步任务。如果您需要同时测试多种资源组，请选中相应资源组后，单击批量测试连通性。详情请参见配置资源组与网络连通。单击...

简介

DMS数据分析与应用介绍 DMS通过Data Fabric+大模型构建数据管理底座，赋能数据分析与应用。该场景下核心的四个功能如下：安全托管：DMS在阿里集团数据库权限访问控制最佳实践，为企业提供一系列数据库权限管控的集合，可帮助企业实现多云...

大数据与数据分析

新品推荐