超大数据计算-超大数据计算文档介绍内容-阿里云

MaxCompute表的高级功能

在数据计算时避免全表扫描。您可以增加分区过滤的条件或减少扫描的分区数，实现减少数据扫描量。把全局扫描表的中间结果进行存储，形成中间表。如果每天都需扫描某表一整年的分区，则计算消耗是非常大的。因此，建议您拆出一张中间表，每天...

创建湖仓版集群

计算预留资源计算预留资源用于数据计算。增加计算资源可以提高数据查询速度。如果需要创建AnalyticDB MySQL内表，计算预留资源需大于0 ACU。计算预留资源为0 ACU时，只能使用外表。如果创建集群时选择的计算预留资源为0 ACU，集群创建成功...

概述

Spark全密态数据计算引擎常用于解决数据存储与计算安全、敏感数据合规和数据安全共享场景中的数据安全问题。以下是常见的应用场景：数据存储与计算安全场景：在不可信环境中（如第三方平台），Spark全密态计算引擎可以为关键的数据分析...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

公告

该地域项目的存储、下载后付费账单归属的产品明细将从大数据计算服务MaxCompute（包月）变成大数据计算服务MaxCompute（按量付费），同时对应的用量明细选择的计量规格变成大数据计算服务MaxCompute（按量付费）。当您使用的包年包月...

2024年

对应地域所有项目的生命周期都将与按量付费标准服务的生命周期保持一致，所有项目的存储、下载等按量付费账单归属的产品明细为大数据计算服务MaxCompute（按量付费），同时对应的用量明细选择的计量规格变为大数据计算服务MaxCompute...

RDS迁移至MaxCompute实现动态分区

本文为您介绍如何使用DataWorks数据集成同步功能自动创建分区，动态地将RDS中的数据迁移至MaxCompute大数据计算服务。前提条件准备DataWorks环境开通MaxCompute。在DataWorks上完成创建业务流程，本例使用DataWorks简单模式。详情请参见 ...

MaxCompute账单用量明细分析

计量规格：大数据计算服务MaxCompute（按量付费）是按量付费模式的计量明细。ODPSDataPlus 是包年包月模式的计量明细。使用时间：单击下拉框选择开始时间和结束时间。如果出现跨天执行的任务，例如某任务开始时间为12月1日，结束时间为12月...

计算抵扣包和存储抵扣包

000 33000 75%24,750.00 计算抵扣包选择示例例如您的阿里云账号开通使用MaxCompute上海区域的按量计费服务，主要使用SQL和Spark进行数据计算，每个月计算费用原价大概有 1000 元，一年则有 12000 元，那么您可以考虑购买计算抵扣包。...

创建通用项目

如果您管理诉求较强，数据研发人员较多且能力及分工明确，数据计算存储预算较高，推荐此模式。Basic模式：完成项目的创建后，系统默认生成了Basic项目（开发和生产一体的项目）。Basic项目的数据生产过程稳定且便捷。如果您关注数据研发...

创建通用项目

如果您管理诉求较强，数据研发人员较多且能力及分工明确，数据计算存储预算较高，推荐此模式。Basic模式：完成项目的创建后，系统默认生成了Basic项目（开发和生产一体的项目）。Basic项目的数据生产过程稳定且便捷。如果您关注数据研发...

通过函数计算节点实现GitHub实时数据分析与结果发送

阿里云原生大数据计算MaxCompute 阿里云对象存储OSS 阿里云函数计算FC MaxCompute配置数据源类型显示当前数据源类型，即MaxCompute。数据源名称选择步骤二中创建的MaxCompute数据源。OSS配置数据源类型显示当前数据源类型，即OSS。...

什么是视觉计算服务

提供视觉数据接入、AI算法训练、计算资源调度的能力，通过API支撑开发业务应用，同时帮助开发者提升视觉AI创新效率，专注核心业务创新。VCS支持视频采集、存储、分析全过程，向企业、开发商和个人提供数据服务；同时支持视觉数据接入、视觉...

如何对JSON类型进行高效分析

针对海量半结构化数据计算与分析，本文将以半结构化数据JSON为例，首先简述传统数据库与数据仓库的解决方案，然后详细描述 PolarDB IMCI列式JSON、虚拟列、秒级加减列与表列数扩展等技术点，最后给出 PolarDB IMCI列式JSON实时分析与扩展流...

新建普通维度逻辑表

使用最新维表（维表使用最新分区）：数据计算时使用最新关联维度逻辑表的最新分区。例如，某商品类目经常会调整，10天前是手机类目，今天是电器类目。如果业务上需要按照电器类目重跑10天前的数据，则维表版本策略需要选择为使用最新维表...

新建普通维度逻辑表

使用最新维表（维表使用最新分区）：数据计算时使用最新关联维度逻辑表的最新分区。例如，某商品类目经常会调整，10天前是手机类目，今天是电器类目。如果业务上需要按照电器类目重跑10天前的数据，则维表版本策略需要选择为使用最新维表...

内建函数概述

数学函数 MaxCompute SQL提供了如下数学函数供您在开发过程中使用，您可以根据实际需要选择合适的数学函数，进行数据计算、数据转换相关操作。说明取余数计算等更多计算请参见算术运算符。函数功能 ABS 计算绝对值。ACOS 计算反余弦值。...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

迁移方案

外部数据的读写效率会影响您对实时计算能力的评估，例如：如果实时计算需要从日志服务（LogService）读取数据，但LogService对于请求调用配额（Quota）存在一定限制，则实时计算整体的计算能力将被限制在LogService允许的范围内。...

挂载NAS

1.背景绝大部分计算模型下，客户数据直接存储于云端 NAS 里。为了方便客户读写云端计算数据，批量计算根据用户提供的挂载信息，自动将 NAS 的挂载点挂载到本地目录。完成 NAS 挂载后，对挂载目录里数据的读写行为将和读写本地数据完全相同...

告警事件

告警事件集中为您展示离线计算、实时计算、基线监控、数据质量模块的告警事件。本文为您介绍如何查看并处理告警事件。查看告警事件在Dataphin首页，单击页面右上角的图标，进入告警中心页面。在告警事件页面，单击离线计算、实时...

功能更新动态（2022年之前）

设置Dataphin实例的计算引擎计算源计算源为离线数据的处理提供计算及存储资源、为实时数据的处理提供计算资源。计算源数据源支持创建离线数据源和实时数据源，通过数据源将业务数据引入Dataphin平台。数据源业务板块创建业务板块时，...

Dataphin支持的数据源

背景信息 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型说明如下：如果您需要在Dataphin中连接某数据源，则需要先在数据源管理中创建该数据源。...

自定义函数（邀测中）

AnalyticDB for MySQL 未开启压缩，将数据直接传输至函数计算服务，函数计算服务经过计算后，将计算结果使用GZIP格式压缩后返回给 AnalyticDB for MySQL，导致 AnalyticDB for MySQL 无法解析数据。调用 REMOTE_CALL 函数时，出现 parse ...

文档更新动态（2022年之前）

新功能网络连通解决方案 2021年08月24日数据服务：支持数据服务模块的数据查询加速、支持的数据源类型和版本拓展为了满足对数据查询速度有要求的业务场景，Dataphin支持为项目添加加速计算源，且完成Dataphin数据源开发后，您可以手动...

历史功能发布记录（2023年及之前）

计算巢支持服务创建者在服务中创建快照策略并应用于对应的云盘，并利用快照回滚计算巢服务实例的云盘，保护系统盘和数据盘的数据。2023-12-31 创建包含快照策略的服务并使用快照回滚服务实例的云盘计算巢审核申请页中新增申请信息风险审核...

迁移方案

本文为您介绍阿里云实时计算Blink独享或共享集群（Blink计算引擎和Bayes开发平台）的业务迁移至实时计算Flink全托管（Flink计算引擎VVR和开发平台VVP）时的迁移限制、迁移方案和常见问题。迁移限制由于Blink作业的State和Flink的State无法...

资源组介绍

云原生数据仓库AnalyticDB MySQL版数仓版（3.0）的弹性模式集群版（新版）采用了存储计算分离架构，您可以对计算资源进行弹性扩缩容。资源组功能可以对计算资源进行按需划分，不同资源组间的计算资源在物理上完全隔离。通过 AnalyticDB ...

功能特性

BSP支持计算数据落盘，适用于计算量大，吞吐高的复杂场景。XIHE BSP SQL开发 Spark引擎 Spark开发完全兼容开源Spark，且AnalyticDB for MySQL Spark提供了更好的性能和更低的资源成本。Spark计算引擎 Spark运维完全兼容开源Spark，...

UDT示例

聚合操作 UDT实现聚合的原理是，先用内建函数 COLLECT_SET 或 COLLECT_LIST 将数据转变成List，之后对该List应用UDT的标量方法计算数据的聚合值。示例如下，计算BigInteger的中位数（由于数据是 java.math.BigInteger 类型的，所以不能直接...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

聚合支付方案

使用 PolarDB 进行数据归档，满足超大数据量的存储需求，借助存储、计算分离以及与MySQL 100%的兼容性，确保原有业务不做修改。使用 Redis 来做缓存，通过缓存提高读取效率；使用RDS只读实例中的读库进行分流，自动均衡读流量。使用云原生...

2023年

2023-06 功能名称功能描述发布时间发布地域相关文档新增JSON数据类型新增JSON数据类型，MaxCompute支持写入JSON数据类型时，自动优化存储，提高JSON数据计算分析性能。2023-06-27 全部地域 MaxCompute JSON类型使用指南（试用Beta...

关于我们

产品团队是隐私计算联盟的成员，其参与的隐私计算标准有：国家标准《个人信息去标识化效果分级评估规范》国家标准《信息安全技术多方数据融合计算安全指南》行业标准《基于安全多方计算的数据计算平台技术要求与测试方法》行业标准《基于...

高可用版

图数据库GDB支持高可用版和单节点版两个系列。高可用版采用一主一备的经典高可用架构（主备节点均为独立的图数据库节点），计算与存储分离，...基于超大规模的阿里云飞天分布式存储，保证数据多副本的可靠性。适用场景企业级的生产图数据库。

什么是阿里云实时计算Flink版

阿里云实时计算Flink版是一套基于Apache Flink构建的⼀站式实时大数据分析平台，提供端到端亚秒级实时数据分析能力，并通过标准SQL降低业务开发门槛，助力企业向实时化、智能化大数据计算升级转型。产品概述阿里云实时计算Flink版是一种全...

基本概念

实例实例是指用户创建的针对多个数据进行同一类型AI计算所创建的一个计算任务。设备设备指IPC、NVR等能产生视频数据的相关设备，该设备同时符合GB/T28181-2016、GA/T1400协议，或者集成阿里云VCS SDK。设备接入设备接入是指用户需要计算...

SQL其他常见问题

由于复杂结构的超大字段在数据开发和分析中会严重影响计算性能，因此建议根据数据仓库建设规范来设计您的数据架构，避免出现超大字段：具有复杂结构的原始数据，作为ODS层，最好以压缩的方式归档。定时（例如每天）对ODS层的增量数据做数据...

长周期指标的计算优化方案

本文为您介绍如何对长周期指标的计算进行优化。实验背景电子商务公司在电商数据仓库和商业分析场景中，经常需要计算最近N天...计算老买家数量时，判断最近一次购买时间是否在30天之内，从而最大程度上的数据关系对去重，减少计算输入数据量。

数据中心

数据中心包含数据管理、数据配置。数据管理数据管理模块展示并管理用户添加的数据。主要功能包括数据表引入、本地数据导入。...数据配置计算资源管理支持用户在系统内添加云计算资源，支持的计算资源类型有：ODPS、hive等。

超大数据计算

新品推荐