大数据的矩阵计算基础-大数据的矩阵计算基础文档介绍内容-阿里云

产品概述

阿里云流数据处理平台数据总线DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布(Publish)，订阅（Subscribe）和分发功能，让您可以轻松构建基于流式数据的分析和应用。数据总线 DataHub服务可以对各种移动设备，应用...

某历史养成类游戏开发公司实时计算和数据仓库方案

Spark优秀的计算能力：同样作业Spark基于列式存储Parquet的分析在数据量大的情况下比Greenplum集群有10倍的性能提升。支撑了广告转化率、激活率，安装用户成本，数据驱动精细化运营等业务计算需求；一站式解决方案：Spark服务原生支持通过...

数据源与功能的矩阵

DLA支持云上大部分的数据源。RDS包括MySQL、PG、SQLServer、Oracle关系型数据库，PolarDB跟RDS保持一致。Data Source\ Feature SELECT INSERT INTO INSERT OVERWRITE CREATE TABLE LIKE MAPPING MSCK REPAIR DATABASE MSCK REPAIR TABLE ...

我是安全管理员

解决方案数据归档概述数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建...

数据导入方式介绍

为满足多样化的数据导入需求，云原生数据仓库AnalyticDB MySQL版提供了多种数据导入方式，包括：通过外表导入数据、使用DataWorks导入数据和利用JDBC通过程序导入数据等。本文介绍各导入方式的特性及适用场景，帮助您选择正确的数据导入...

操作流程

通过操作流程图及说明，您可以直观且全局了解自定义函数和数据基础库的操作流程。本文介绍自定义函数和数据基础库的操作流程。自定义函数流程图流程说明操作说明新建函数资源通过上传资源包的方式新建函数资源，为自定义函数中所使用...

操作流程

通过操作流程图及说明，您可以直观且全局了解自定义函数和数据基础库的操作流程。本文介绍自定义函数和数据基础库的操作流程。自定义函数流程图流程说明操作说明新建函数资源通过上传资源包的方式新建函数资源，为自定义函数中所使用...

数据表-数据概况

功能说明在数据表详情的数据概况标签页，基于对元数据及存储数据的统计，为您提供了数据表更加详细的指标信息，比如表存储大小、表文件总数、DDL最后更新时间、数据最后更新时间、访问次数、分区存储大小，分区文件数，分区最后更新时间等...

MaxFrame概述

您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。版本说明当前MaxCompute MaxFrame功能...

我是DBA

解决方案数据归档数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建工单...

我是管理员

数据归档数据归档功能定时将大表的数据归档至其他数据库，支持源表数据删除、表空间整理回收等功能。数据库迁移通过创建工单实现数据库迁移、校验和清理的闭环操作。运维管理通知管理可根据您的业务需求，订阅不同功能模块的消息事件，...

操作审计事件数据迁移至MaxCompute

参数描述 大数据计算服务地域被投递数据的MaxCompute项目所在地域。说明操作审计会将审计日志投递至MaxCompute指定地域下的actiontrail_<阿里云账号ID>项目中。因为同一阿里云账号下MaxCompute项目名称唯一，若账号下已有actiontrail_...

使用Stage和Task详情分析查询

AnalyticDB for MySQL 在前端接入节点接收到查询请求后，会将查询切分成多个Stage，在存储节点（Worker节点）和子任务执行节点（Executor节点）分布式进行数据的读取和计算。部分Stage可以并行执行，但部分Stage之间存在依赖关系，只能串行...

升级数据库大版本

本文介绍云数据库MongoDB支持升级的数据库大版本以及如何升级数据库大版本。注意事项升级分片集群实例的数据库大版本时，实例的协议类型需为 MongoDB协议。升级采用轮转升级的方式进行，升级过程中会自动对实例进行2~3次重启，请在业务低...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

PERCENTILE_APPROX

当您需要估计大型数据集中的百分位数，尤其是当精确计算百分位数成本过高或不可行时，MaxCompute支持使用PERCENTILE_APPROX函数计算近似百分位数，先对指定列升序排列，然后取第 p 位百分数对应的值。此函数为MaxCompute 2.0扩展函数，本文...

功能简介

通用资源为用户提供了自定义函数、函数资源、数据基础库的能力，帮助用户在数据开发等过程中灵活调用各类自定义函数和基础数据。自定义函数支持对ETL函数自定义和管理，并与公共计算节点相关联，便于快速对数据进行ETL处理。函数资源支持...

功能简介

通用资源为用户提供了自定义函数、函数资源、数据基础库的能力，帮助用户在数据开发等过程中灵活调用各类自定义函数和基础数据。自定义函数支持对ETL函数自定义和管理，并与公共计算节点相关联，便于快速对数据进行ETL处理。函数资源支持...

使用流程

操作流程概览如下：开通云原生数据湖分析服务可选：创建虚拟集群：CU版适用于查询频率高、查询数据量较大的场景，同时也能够给您使用DLA的费用预算带来一定的确定性。推荐您使用CU版本来进行数据分析与计算。说明如果您使用系统默认的...

复合指标

由于派生指标只是针对某业务活动某段时间的数据量统计，无法满足贴近用户实际使用的业务增长率、差值计算等数据的比对需求（例如，统计某业务活动的周环比增长率）。因此，DataWorks为您提供了由派生指标通过运算规则进行计算而形成的复合...

通用资源

通用资源为用户提供了自定义函数、函数资源、数据基础库的能力，帮助用户在数据开发等过程中灵活调用各类自定义函数和基础数据。自定义函数通过自定义函数功能，用户可以自定义ETL（Extract-Transform-Load）函数并管理，自定义函数与公共...

重要组件

此外，PolarStore使用了类似Copy On Write技术，支持秒级快照，即对数据库来说，不管底层数据有多大，都能快速完成全量数据备份，因此PolarDB支持高达100T的磁盘规格。计算节点和存储节点之间通过25G RDMA网络连接，保证数据传输不会出现...

功能特性

监控告警数仓和数据湖功能集功能功能描述参考文档数据存储数据缓存云数据库SelectDB支持数据缓存功能，当您需要管理缓存数据并提升云数据库 SelectDB 版的访问速度时，可以根据该文档对缓存进行有效管理，并利用LRU和TTL管理策略，...

使用须知

您可以查询并分析存储在MaxCompute上的大规模数据。MaxCompute SQL支持如下主要功能。功能项说明 DDL操作支持管理表、分区、列、生命周期及视图。DML操作支持插入或更新表、分区数据。DQL操作支持SELECT、子查询等多种查询操作。增强...

数仓规划概述

使用DataWorks进行数据建模时，数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后，模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

存储成本优化

本文从数据分区、表生命周期和定期删除表3个方面为您介绍如何优化存储成本。对于存储优化而言，有三个关键点：合理地进行数据分区。设置合理的表生命周期。定期删除废表。合理设置数据分区 MaxCompute将分区列的每个值作为一个分区。您可以...

点热力层（v3.x版本）

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

Pandas API支持

MaxFrame提供了兼容Pandas的API接口，您可以用类似于Pandas的方式来操作MaxCompute中的数据，同时利用MaxCompute强大的分布式计算能力，简化您在大数据环境下的数据处理工作，本文为您介绍Pandas API的支持情况。当前MaxFrame支持的API详情...

Tunnel SDK常见问题

如果数量较大且是持续上传模式，Block的数据量在64 MB~256 MB之间；如果是每天传一次的批量模式，Block可以设置为1 GB左右。使用新版BufferedWriter可以更简单地进行上传且可以避免小文件等问题，详情请参见 TunnelBufferedWriter。遇到...

云计算资源类型

云计算资源是数据资源平台中数据建模使用的基础，通过了解数据建模支持的云计算资源类型，并在系统设置模块添加数据建模需要使用的云计算资源类型对应资源，以备在物理化逻辑表和设置对应资源的质量规则时使用。本文介绍数据建模中支持...

云计算资源类型

云计算资源是企业数据智能平台中数据建模使用的基础，通过了解数据建模支持的云计算资源类型，并在系统设置模块添加数据建模需要使用的云计算资源类型对应资源，以备在物理化逻辑表和设置对应资源的质量规则时使用。本文介绍数据建模中...

准备数据源和计算源

准备数据源 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型及操作指导，请参见 Dataphin支持的数据源。重要确定业务数据源类型后，在Dataphin创建...

准备数据源和计算源

准备数据源 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型及操作指导，请参见 Dataphin支持的数据源。重要确定业务数据源类型后，在Dataphin创建...

购买指引

其他产品计费：大数据引擎的计算与存储等费用不包含在DataWorks的费用中，例如，您还开通使用了 MaxCompute、Hologres、E-MapReduce 等计算引擎或存储产品，这类产品的费用需参考对应产品的计费逻辑。进入 DataWorks售卖页即可购买所需...

查看账单详情

上图中，产品明细说明如下：大数据计算服务MaxCompute（按量付费）、消费类型为后付费：指当日该账号开通MaxCompute按量付费标准版、开发者版中所有按量付费账单的汇总，包括存储、计算、公网下载的按量计费账单。大数据计算服务...

云产品集成

常见云产品如下：大数据开发治理平台 DataWorks 实时计算 Flink 版数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现前提条件已获取 OceanBase 数据库的基本连接信息，详细步骤请参见获取连接参数。大数据开发治理平台 ...

RDS迁移至MaxCompute实现动态分区

本文为您介绍如何使用DataWorks数据集成同步功能自动创建分区，动态地将RDS中的数据迁移至MaxCompute大数据计算服务。前提条件准备DataWorks环境开通MaxCompute。在DataWorks上完成创建业务流程，本例使用DataWorks简单模式。详情请参见 ...

技术架构选型

在数据模型设计之前，您需要首先完成技术...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','language':'zh-CN',};

ECS实例说明

本文介绍E-MapReduce（简称EMR）支持的ECS实例类型，以及各实例类型适用的场景。EMR支持的ECS实例类型通用型 vCPU:Memory=1:4。例如，8核32 GiB，使用云盘作为存储...Task计算实例用于补充集群的计算能力，可以使用除大数据型外的所有机型。

技术架构选型

在数据模型设计之前，您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

大数据的矩阵计算基础

新品推荐