大数据的矩阵计算基础-大数据的矩阵计算基础文档介绍内容-阿里云

使用MaxCompute控制台（离线）

MaxCompute控制台提供数据上传功能，支持您将本地文件或阿里云对象存储服务OSS中的文件数据离线（非实时）上传至MaxCompute进行分析处理及相关管理操作。使用限制仅支持基于本地文件或阿里云对象存储OSS 上传数据，具体如下。本地文件...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中，也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute ...

数据传输费用（公网下载）

本文介绍MaxCompute中数据下载计费规则。MaxCompute仅对公网的下载数据进行收费，并按照下载的数据大小按量计费。MaxCompute会在第二天给出您的下载费用账单，您可以进入费用中心查看。下载计费规则如下。计费公式价格说明一次下载...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

公开数据集概述

简介 MaxCompute开放的公开数据集类别包括：GitHub公开事件数据、国家统计数据、TPC性能测试数据、数字商业类数据、生活服务类数据、金融股票类数据。所有的数据均存储在MaxCompute产品的公开项目BIGDATA_PUBLIC_DATASET的不同Schema中。...

数据模型架构规范

它相当于一个数据准备区，同时又承担着基础数据的记录以及历史变化。其主要作用是把基础数据引入到MaxCompute。CDM：Common Data Model，公共维度模型层，又细分为DWD和DWS。它的主要作用是完成数据加工与整合、建立一致性的维度、构建可...

准备数据

同步速率设置同步速率可以保护读取端数据库，以避免抽取速度过大，给源库造成太大的压力。同步速率建议限流，结合源库的配置，请合理配置抽取速率。错误记录数错误记录数，表示脏数据的最大容忍条数。确认当前节点的配置无误后，单击左上...

存储费用

MaxCompute会对存储的数据（例如表或资源）及备份的数据，按照数据容量大小进行计费。本文为您介绍存储费用的计费规则。背景信息 MaxCompute数据的压缩比一般在5倍左右，因此多数情况下，您上传的数据文件大小与实际存储在MaxCompute的大小...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

什么是PolarDB PostgreSQL企业版

PolarDB 是阿里巴巴自研的新一代云原生数据库，在存储计算分离架构下，利用了软硬件结合的优势，为用户提供具备极致弹性、高性能、海量存储、安全可靠的数据库服务。PolarDB 100%兼容PostgreSQL 11，PostgreSQL 14，高度兼容Oracle。...

产品优势

本文介绍云原生关系型数据库 PolarDB PostgreSQL版（兼容Oracle）的产品优势，帮助您更好地了解 PolarDB PostgreSQL版（兼容Oracle）。简单易用 PolarDB PostgreSQL版（兼容Oracle）高度兼容Oracle语法，代码/应用无需修改或只需少量修改。...

外部表常见问题

问题类别常见问题 OSS外部表自定义Extractor在读取非结构化数据时，如果数据字段存在DATETIME类型，报错ODPS-0123131，如何解决？在MaxCompute上访问OSS外部表，编写UDF本地测试通过，上传后报错内存溢出，如何解决？通过外部表处理OSS...

跨地域灾备

当您需要保证MaxCompute作业持续运行时，MaxCompute提供跨地域（Region）灾备功能，支持以项目（Project）为单位远程备份数据和元数据，确保备份地点与数据源的地理距离超过一百公里，以提升数据安全性。您能够自定义选择备份目标地域，并...

SDK接口

本文为您介绍流式数据通道SDK接口的使用方法。使用说明您可以基于MaxCompute Studio通过Java SDK使用MaxCompute流式数据通道服务。您可以使用以下配置在MaxCompute Studio上添加指定版本的pom依赖。groupId>...

Tunnel操作

MaxCompute通过Tunnel实现上传下载数据功能。本文为您介绍如何通过Tunnel上传、下载数据。Tunnel操作详情请参见 Tunnel命令。Tunnel操作常用命令如下。类型功能角色操作入口上传数据将本地文件的数据上传至MaxCompute的表中，以追加...

迁移服务（MMA）

MaxCompute提供的数据迁移服务支持通过MMA（MaxCompute Migration Assist）服务，将Hive数据安全且高效地迁移到MaxCompute。迁移流程使用限制不支持迁移Hive数据至已开启Schema功能的MaxCompute项目。关于Schema介绍详情，请参见 Schema...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

DataWorks V3.0

DataWorks V3.0核心特性支持多种计算引擎 DataWorks V3.0全新升级了多引擎插件化架构，在DataWorks V2.0版本仅支持MaxCompute计算引擎的基础上，新增开源大数据引擎E-MapReduce、交互式分析和图计算服务（Graph Compute）等引擎服务。...

云计算资源类型

云计算资源是空间数据中台中空间数据使用的基础，通过了解空间数据的云计算资源类型，并在系统设置模块添加数据标准需要使用的云计算资源类型对应资源，以备在添加空间数据时使用。本文介绍空间服务管理设计中支持使用的云计算资源类型。...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

导出数据建模基础信息

支持您通过导出数据建模基础信息功能，下载数据建模基础信息到本地进行查看并搭配导入功能，您可以快速实现工作组间的数据建模基础信息迁移。本文介绍如何导出数据建模基础信息。前提条件已存在数据建模基础信息，具体操作，请参见新建...

导出数据建模基础信息

支持您通过导出数据建模基础信息功能，下载数据建模基础信息到本地进行查看并搭配导入功能，您可以快速实现工作组间的数据建模基础信息迁移。本文介绍如何导出数据建模基础信息。前提条件已存在数据建模基础信息，具体操作，请参见新建...

发展历程

深度参与和推动全球大数据领域标准化建设 MaxCompute代表阿里巴巴计算平台，成为国际TPC（Transaction Processing Performance Council）委员会大数据评测标准BigBench的委员会委员，是中国担任此国际性能标准化测试组织委员的唯一企业。...

Transaction Table2.0概述

很多业务场景并不要求延时秒级更新可见或者行级更新，更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景，MaxCompute支持基于Transaction Table2.0实现近实时的增全量一体的数据存储、计算解决方案，本文为您介绍本方案...

新建数据建模基础信息

当默认的数据建模基础信息不满足要求时，可以为逻辑表添加自定义属性。本文介绍如何新建数据建模基础信息。背景信息可根据需要同时新建多个数据建模基础信息供新建逻辑表时使用。操作步骤登录数据资源平台控制台。在页面左上角，单击 ...

新建数据建模基础信息

当默认的数据建模基础信息不满足要求时，可以为逻辑表添加自定义属性。本文介绍如何新建数据建模基础信息。背景信息可根据需要同时新建多个数据建模基础信息供新建逻辑表时使用。操作步骤登录企业数据智能平台。在页面左上角，单击图标...

导入数据建模基础信息

通过导入数据建模基础信息，可以为逻辑表批量快速添加新属性。本文介绍如何批量导入数据建模基础信息。操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。...

导入数据建模基础信息

通过导入数据建模基础信息，可以为逻辑表批量快速添加新属性。本文介绍如何批量导入数据建模基础信息。操作步骤登录企业数据智能平台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

函数

MaxCompute为您提供了SQL计算功能，您可以在MaxCompute SQL中使用系统的内建函数完成一定的计算和计数功能。但当内建函数无法满足要求时，您可以使用MaxCompute提供的Java或Python编程接口开发自定义函数。内建函数：可以简化SQL查询的...

数据查询

使用预降采样查询提升查询性能大范围的时间查询预降采样通过存储引擎将写入的数据降低精度后单独存储，查询时按查询条件中指定的降采样精度自动查询最接近预降采样精度的数据，然后再对查询的数据进行聚合计算，减少实时查询的计算数据...

权限自查建议

随着项目的不断演进，人员的权限也会更新迭代，您需要及时审视人员权限合理性，提升项目数据安全。本文为您介绍权限查询要点，并提供调整建议供参考。背景信息在项目创建初期，为了提升业务处理效率，通常在用户和权限管理上相对宽松。...

01新建模型目录

对话框，输入目录的名称和标识，操作完成后，单击确认，按照下面表格中数据依次新建一级、二级目录，目录配置如下：一级目录一级目录code 目录描述二级目录二级目录code STG stg 客户数据源数据层-ODS ods 原始数据层 基础数据 ...

数据模型

基本概念物联网、应用监控、工业互联网等典型的时序场景下，数据源（Data Source）通常按一定的周期持续产生时序数据，一条时序数据由Tag、Timestamp、Field等元素共同来描述，具有相同特征的一类数据存放在同一张表中，表的时序数据元素...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

存储空间分析

您可以在 AnalyticDB for MySQL 空间总览页面查看集群和表的总数据量、冷数据量、热数据量、索引数据量、分区数量、节点的磁盘使用率等指标。查看集群级别的数据量通过空间总览可以查看当前集群的总数据量、热数据量、冷数据量、以及 ...

低成本历史库

在移动互联网高度发达的今天，每天都会有大量的业务数据产生，随着时间的积累和业务的发展数据量急剧增长，同时历史数据的访问频率随着时间的推移却越来越低。这些数据全部存储在关系型数据库中会带来了一系列的问题。重要 2023年3月10日后...

低成本RDS历史库

云原生多模数据库 Lindorm 和关系型数据库同时使用时可以满足低存储成本，方便运维，弹性伸缩等需求，本文介绍其方案架构和优势。重要 2023年3月10日后购买的LTS 不再支持低成本RDS历史库场景，2023年3月10日前购买的LTS仍支持该场景。背景...

应用场景：低成本历史库

云原生多模数据库 Lindorm 和关系型数据库同时使用时可以满足低存储成本，方便运维，弹性伸缩等需求，本文介绍其方案架构和优势。重要 2023年3月10日后购买的LTS 不再支持低成本历史库场景，2023年3月10日前购买的LTS仍支持该场景。背景...

大数据的矩阵计算基础

新品推荐