大数据科学计算-大数据科学计算文档介绍内容-阿里云

MaxFrame概述

MaxFrame可直接引用Numpy、SciPy、Pandas、Matplotlib等第三方库进行科学计算、数据分析、可视化等操作，降低用户操作成本。更高的处理性能 MaxFrame可直连MaxCompute数据，运行时无需将数据拉取至本地计算，消除了不必要的本地数据传输，...

2024年

您可以以更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析及科学计算、ML/AL开发等工作。MaxFrame功能介绍和使用说明请参见 MaxFrame概述。您有任何相关问题或需要协助，可以通过您的专...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

2024年

2024-03 功能名称功能描述发布时间发布地域相关文档镜像管理功能发布 MaxCompute提供镜像管理功能，内置数据分析、科学计算、机器学习（如Pandas、Numpy、Scikit-learn、Xgboost）等各类常用镜像，并已对镜像进行预先加热，您可在SQL ...

Serverless Spark概述

DLA Spark基于云原生架构，提供面向数据湖场景的数据分析和计算功能。开通DLA服务后，您只需简单的配置，就可以提交Spark作业，无需关心Spark集群部署。重要云原生数据湖分析（DLA）产品已退市，云原生数据仓库 AnalyticDB MySQL 版湖仓...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

计费常见问题

SQL作业的费用计算方式为输入数据量×复杂度×单价，因此在复杂度和单价不变情况下，输入数据量越大费用越高。MaxCompute作业跑失败了会收费吗？MaxCompute有两种计费模式：按量计费：如果作业是按照按量计费进行运行的，当运行失败后，...

PGVector

背景信息随着数据科学和机器学习等技术的迅速发展，向量计算已经成为了大数据领域中最常见的计算任务之一。PolarDB PostgreSQL版作为一种广泛使用的关系型数据库，结合PGVector插件后通过自定义的数据类型和存储方法，使得高维向量计算变...

PGVector

背景信息随着数据科学和机器学习等技术的迅速发展，向量计算已经成为了大数据领域中最常见的计算任务之一。PolarDB PostgreSQL版（兼容Oracle）作为一种广泛使用的关系型数据库，结合PGVector插件后通过自定义的数据类型和存储方法，使得...

PGVector

背景信息随着数据科学和机器学习等技术的迅速发展，向量计算已经成为了大数据领域中最常见的计算任务之一。PolarDB PostgreSQL版（兼容Oracle）作为一种广泛使用的关系型数据库，结合PGVector插件后通过自定义的数据类型和存储方法，使得...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

数据分析整体趋势

存储计算分离：云计算的本质是资源高效池化，而数据库的两大核心组件是存储和计算。通过存储计算分离，做到两者解耦，资源池化，独立扩展，满足业务上资源隔离，数据共享的需求，是当下的架构趋势。计算分析一体化：传统数据分析方案是定期...

选择付费方式

对周期性高密度计算作业使用包年包月模式，对非周期性的大规模数据处理作业使用按量计费模式。按量计费模式下可以不存储数据，通过读取其它账号下的表获取数据，从而可以节省数据存储费用。不同账号下跨表计算需要通过授权来实现，详细请...

产品概述

高度可扩展相比传统单机关系型数据库，PolarDB-X 1.0 采用分层架构可确保在并发、计算、数据存储三个方面均可线性扩展，通过增加 PolarDB-X 1.0 计算资源与存储资源以达到水平扩展效果。相比基于分布式存储的新型Cloud Native数据库，理论...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

产品架构

在查询时可以直接读取本地数据进行计算，极大地提升了查询的速度，有效避免了数据传输和拷贝的延迟。此外，存算一体支持多副本数据存储，提高了并发查询能力和数据的可靠性，非常适合对查询性能要求极高的场景。在StarRocks的存算一体架构...

应用场景

本文将以部门场景和技术领域场景为例，为您介绍实时计算Flink版的大数据是实时化场景。说明更多场景案例请参见阿里云实时计算Flink版产品案例和解决方案汇总。背景信息作为流式计算引擎，Flink可以广泛应用于实时数据处理领域，例如ECS...

内置时空数据引擎Ganos

空间和时空数据具有非结构化、体量大、数据密集兼具计算密集以及较高安全合规属性。PolarDB PostgreSQL版（兼容Oracle）的自研Ganos时空SQL引擎支持直接在数据库中就完成不同时空维度数据的信息检索及处理，相比传统需要跨库信息提取再汇总...

性能指标

用户在配置PSI任务时可以选择是否使用PSI缓存任务，如果选择使用PSI缓存任务，则可以只对增量数据进行PSI计算，适用于大数据量场景、增量更新较少的场景下的周期性PSI安全求交计算。以下是一组使用PSI缓存任务、不使用PSI缓存任务的性能...

E

返回 e 的值。此函数为MaxCompute 2.0扩展函数。命令格式 double e()返回值说明返回DOUBLE类型。使用示例-返回2.718281828459045。select e();相关函数 E函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

PI

返回π的值。此函数为MaxCompute 2.0扩展函数。命令格式 double pi()返回值说明返回DOUBLE类型。使用示例-返回3.141592653589793。select pi();相关函数 PI函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

混合负载HTAP

说明分析型查询指的是涉及数据量较大、计算比较复杂的查询，例如对一定时间区间内的数据进行聚合，相比于业务中常见的简单查询，这类查询往往要执行数秒甚至数分钟，需要消耗较多的计算资源。为了提高复杂分析型查询的速度，PolarDB-X 将...

创建数据板块

数据板块是逻辑空间的重要组成部分，是基于业务特征划分的命名空间。在使用规范建模前，您需要完成数据板块的创建。本文为您介绍如何新建数据板块。前提条件仅支持智能研发版。若需使用，当前租户还需开通智能研发模块。在开始执行操作前...

创建数据板块

数据板块是逻辑空间的重要组成部分，是基于业务特征划分的命名空间。在使用规范建模前，您需要完成数据板块的创建。本文为您介绍如何新建数据板块。前提条件仅支持智能研发版。若需使用，请升级当前版本。升级版本，请参见升级。在开始...

技术原理

分析型查询指的是涉及数据量较大、计算比较复杂的查询，例如对一定时间区间内的数据进行聚合。相比于业务中常见的简单查询，这类查询往往要执行数秒甚至数分钟，需要消耗较多的计算资源。为了加速复杂分析型查询，PolarDB-X将计算任务切分...

POSITIVE

NEGATIVE

ISNAN

判断表达式的值是否为 NaN，如果值为 NaN，返回True，否则返回False。命令格式 boolean isnan()参数说明 expr：必填。DOUBLE类型。...相关函数 ISNAN函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

UNHEX

返回十六进制字符串所代表的字符串。此函数为MaxCompute 2.0扩展函数。命令格式 binary unhex(string)参数说明 number：必填。为十六进制字符串。...相关函数 UNHEX函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

ATAN2

计算 expr1/expr2 的反正切函数。命令格式 double atan2(,)参数说明 expr1：必填。DOUBLE类型。输入为STRING、BIGINT、DECIMAL类型时，会隐式转换为...相关函数 ATAN2函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

FILTER

将ARRAY数组 a 中的元素利用 func 进行过滤，返回一个新的ARRAY数组。命令格式 array<T>filter(array<T><a>,function,boolean>)参数说明 a：必填。...相关函数 FILTER函数属于数学函数，更多数据计算、数据转换的相关函数请参见数学函数。

产品功能

时序数据计算能力 TSDB 提供专业全面的时序数据计算函数，支持降采样、数据插值和空间聚合计算，能满足各种复杂的业务数据查询场景。监控运维 TSDB 提供实例运维系统，让您可以实时的掌握实例的运行情况、性能指标和存储空间使用情况，并...

函数

自定义函数（UDF）：为MaxCompute提供了高度的灵活性，允许您根据具体业务逻辑进行定制化的数据计算和分析。自定义函数（UDF）可以进一步分为标量值函数（UDF）、自定义聚合函数（UDAF）和自定义表值函数（UDTF）三种类型。您在开发完成UDF...

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

开源支持

使用Mars进行科学计算，不仅使大规模科学计算任务的实现从MapReduce上的数千行代码降低到Mars上的数行代码，更在性能上有大幅提升。Mars已经在Github上开源代码，您可以一起参与共建Mars。详情请参见GitHub开源代码 Mars。关于Mars的更多...

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合，海量离线数据分析可以应用于多种商业系统环境，例如，电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。离线大数据分析概述主流的三大分布式计算框架...

引擎功能

时序数据计算能力 Lindorm时序引擎提供专业全面的时序数据计算函数，支持降采样、数据插值和空间聚合计算，能满足各种复杂的业务数据查询场景。监控运维 Lindorm时序引擎提供实例运维系统，用户可以实时掌握实例的运行情况、性能指标和存储...

概述

AnalyticDB MySQL Spark全密态计算引擎是首批通过信通院隐私计算可信执行环境《产品性能》和《安全功能》两项认证的产品，它可以加密敏感数据，避免数据泄露。您可以通过本文，了解Spark全密态计算引擎在安全合规等领域的应用场景、功能...

应用场景

该场景可实现：在离线一体化支持数据实时增删改、具备在线分析和ETL计算一体化，实现大数据与数据库的融合。通过资源组隔离让在离线计算任务不相互影响，保证业务稳定运行。计算存储资源弹性采用计算存储分离架构，计算资源和存储资源按...

Pandas API支持

MaxFrame提供了兼容Pandas的API接口，您可以用类似于Pandas的方式来操作MaxCompute中的数据，同时利用MaxCompute强大的分布式计算能力，简化您在大数据环境下的数据处理工作，本文为您介绍Pandas API的支持情况。当前MaxFrame支持的API详情...

大数据科学计算

新品推荐