大数据科学计算-大数据科学计算文档介绍内容-阿里云

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

名词解释

提供安全可靠的数据计算能力，可供本地处理设备数据，减少上传云端的成本。Link IoT Edge软件包阿里云IoT的边缘计算产品软件包，包含Link IoT Edge轻量版、标准版、专业版软件包。LE Lite Link IoT Edge轻量版，以二进制 tar.gz 的方式...

产品系列

适用场景包含构建海量数据实时写入和复杂ETL计算的实时数据仓库、大数据量的复杂查询、历史数据分析、日志分析等业务场景。数仓版（3.0）弹性模式包括两种形态：单机版和集群版。单机版单机版即单节点部署，不具备分布式能力。单机版支持...

ECS实例说明

本文介绍E-MapReduce（简称EMR）支持的ECS实例类型，以及各实例类型适用的场景。EMR支持的ECS实例类型通用型 vCPU:Memory=1:4。例如，8核32 GiB，使用云盘作为存储...Task计算实例用于补充集群的计算能力，可以使用除大数据型外的所有机型。

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

数据传输费用（公网下载）

本文介绍MaxCompute中数据下载计费规则。MaxCompute仅对公网的下载数据进行收费，并按照下载的数据大小按量计费。MaxCompute会在第二天给出您的下载费用账单，您可以进入费用中心查看。下载计费规则如下。计费公式价格说明一次下载...

Paimon外部表

阿里云实时计算Flink版、开源大数据平台E-MapReduce 的常见计算引擎（如Spark、Hive或Trino）都与Paimon有完善的集成。借助Apache Paimon，您可以快速构建自己的数据湖存储服务在存储服务OSS上，并接入MaxCompute实现数据湖的分析。关于...

创建通用项目

如果您选择的Dataphin的计算引擎为星环TDH，且数据研发过程中需要使用规范建模、即席查询、Inceptor SQL计算任务等功能，则在创建项目空间前需要完成TDH Inceptor计算源的创建。具体操作，请参见创建TDH Inceptor计算源。如果您选择的...

RDS外部表

使用RDS数据源创建MaxCompute的外部表并加载数据使用RDS数据源创建MaxCompute外部表的步骤如下：登录RDS数据库，执行建表语句并插入数据。操作详情请参见通过DMS登录RDS数据库。建表示例如下：CREATE TABLE `rds_mc_external`(`id` int...

创建通用项目

如果您选择的Dataphin的计算引擎为MaxCompute，且数据研发过程中需要使用规范建模、即席查询、MaxCompute SQL计算任务等功能，则在创建项目空间前需要完成MaxCompute计算源的创建。具体操作，请参见新建MaxCompute计算源。Dataphin支持...

数据科学计算

功能概览

VCS提供从视频采集、存储、到多视觉算法融合计算、数据分析的全过程，向企业、开发商和个人提供能够快速构建基于实时视频数据、图片数据等进行智能分析应用的服务。VCS功能如下接入服务支持仅国标GB/T28181-2016版协议的设备（包含NVR、...

功能特性

功能集功能功能描述参考文档计算费用按量计费 MaxCompute支持对SQL、MapReduce、Spark、Mars（数据科学）、Lightning（交互式分析）和MCQA（查询加速）计算类型按量计费。按量计费包年包月 MaxCompute的计算费用（包年包月）是提前...

计算费用（按量付费）

当您购买按量付费规格后，MaxCompute会对SQL、MapReduce、Lightning（交互式分析）、Spark、Mars（数据科学）和MCQA（查询加速SQL）计算类型按量付费。本文为您介绍不同计算类型下的计费规则。背景信息 MaxCompute是以作业的执行情况作为...

Delta Lake概述

对比项 Data Warehouse Data Lake Delta Lake 架构计算存储一体或分离计算存储分离计算存储分离存储管理严格、非通用原生格式通用格式、轻量级场景报表、分析报表、分析、数据科学 报表、分析、数据科学 灵活性低高较高数据...

概述

Mars能利用并行和分布式技术，为Python数据科学栈加速，包括 Numpy、Pandas 和 Scikit-learn。Mars常用接口如下：Mars Tensor 接口和Numpy保持一致，且支持大规模高维数组。示例代码如下。import mars.tensor as mt a=mt.random.rand...

云产品集成

常见云产品如下：大数据开发治理平台 DataWorks 实时计算 Flink 版数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现前提条件已获取 OceanBase 数据库的基本连接信息，详细步骤请参见获取连接参数。大数据开发治理平台 ...

2023年

MaxCompute Notebook是由MaxCompute提供的全托管、交互式数据分析挖掘模块，为数据工程师、数据分析师及数据科学家等人员提供Web交互式开发环境。支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的...

什么是物联网边缘计算

提供的路由路径如下：设备至IoT Hub 设备至函数计算设备至流数据分析函数计算至函数计算函数计算至IoT Hub 流数据分析至IoT Hub 流数据分析至函数计算 IoT Hub至函数计算断网续传边缘计算节点在断网或弱网情况下提供数据恢复能力。...

（邀测）MaxCompute Notebook使用说明

MaxCompute Notebook是由MaxCompute提供的全托管、交互式数据分析挖掘模块，为数据工程师、数据分析师及数据科学家等人员提供Web交互式开发环境。支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的...

自定义函数（邀测中）

在函数计算服务中根据自定义的函数计算数据。函数计算服务将计算结果以JSON的形式返回到 AnalyticDB for MySQL。AnalyticDB for MySQL 计算再将最终的计算结果返回至客户端。注意事项 Remote UDF功能仅支持标量UDF函数。语法 remote_call('...

应用场景

气象预报 E-HPC结合数值模型计算分析气象数据与环境数据，可以预测天气、环境等气象信息。能源勘探 E-HPC可以帮助勘探行业进行勘探数据分析，分析并模拟出勘测区域的地质构造，从而精确寻找资源位置。生命科学生物信息学：使用E-HPC对大量...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

Tunnel操作

MaxCompute通过Tunnel实现上传下载数据功能。本文为您介绍如何通过Tunnel上传、下载数据。Tunnel操作详情请参见 Tunnel命令。Tunnel操作常用命令如下。类型功能角色操作入口上传数据将本地文件的数据上传至MaxCompute的表中，以追加...

UDT示例

聚合操作 UDT实现聚合的原理是，先用内建函数 COLLECT_SET 或 COLLECT_LIST 将数据转变成List，之后对该List应用UDT的标量方法计算数据的聚合值。示例如下，计算BigInteger的中位数（由于数据是 java.math.BigInteger 类型的，所以不能直接...

2024年

跨地域灾备 2024-02-08 新增镜像管理新说明 MaxCompute提供镜像管理功能，内置数据分析、科学计算、机器学习（如Pandas、Numpy、Scikit-learn、Xgboost）等各类常用镜像，并已对镜像进行预先加热，您可在SQL UDF、PyODPS开发等场景中直接...

技术架构选型

在数据模型设计之前，您需要首先完成技术...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','language':'zh-CN',};

流式ETL

数据传输服务DTS提供的流式数据ETL（Extract Transform Load）功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务，并结合DTS的高效流数据复制能力，可以实现流式数据的抽取、数据转换和加工、数据...

什么是ETL

数据传输服务DTS提供的流式数据ETL（Extract Transform Load）功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务，并结合DTS的高效流数据复制能力，可以实现流式数据的抽取、数据转换和加工、数据...

2023年

Spark Connector 2023-10-27 新增数据科学计算概述新说明 MaxFrame是由阿里云自研的分布式科学计算框架，是对历史相关产品功能（PyODPS、Mars）的重大升级，在MaxCompute之上提供一套完全兼容Pandas接口的API，让用户用更为熟悉、更符合...

应用场景

随着大数据时代的到来，图计算在处理海量关系数据上的优势也越来越明显，在商品推荐、社交网络、金融风控、网络安全等场景上应用也日趋广泛。个性化推荐图计算引擎在处理海量关系数据上具备天然优势，能够提高实时推荐的效率和准确性。以...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

PyODPS概述

如果后续操作的都是本地的DataFrame，则丧失了MaxCompute 的大规模并行计算能力，且数据量稍大时，单机内存就很容易产生OOM。提交到MaxCompute分布式执行（推荐）推荐您合理利用PyODPS提供的分布式DataFrame功能，将主要的计算提交到...

新功能试用申请

2023年9月 Notebook功能 MaxCompute Notebook是由MaxCompute提供的全托管、交互式数据分析挖掘模块，为数据工程师、数据分析师及数据科学家等人员提供Web交互式开发环境。支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的...

挂载NAS

为了方便客户读写云端计算数据，批量计算根据用户提供的挂载信息，自动将 NAS 的挂载点挂载到本地目录。完成 NAS 挂载后，对挂载目录里数据的读写行为将和读写本地数据完全相同。2.说明网络限制：批量计算仅支持专有网络(Vpc)类型的挂载点...

2021年

2021-12-30 全部地域 MaxCompute湖仓一体概述 MaxCompute支持渐进式计算 MaxCompute支持渐进式计算，在处理数据过程中按照一定时间颗粒度自动按时间分区保存处理过程中的中间结果数据，在下一个周期执行时可以重复使用上周期已经计算好的...

什么是物联网边缘计算

物联网边缘计算可以结合阿里云的大数据、AI学习、语音、视频等能力，打造出云边端三位一体的计算体系。功能特性功能特性描述边缘一体机边缘一体机是物联网边缘计算服务配套的硬件，是一个边缘实例业务的核心，提供整个边缘实例所需要的...

2020年

Policy权限控制 2020年5月更新记录时间特性类别描述产品文档 2020-05-25 新增数据科学（Mars）。新说明新增数据科学（Mars）。概述准备工作使用说明 2020-05-25 新增创建PyODPS 3节点。新说明介绍如何创建PyODPS 3节点。开发...

公告

该地域项目的存储、下载后付费账单归属的产品明细将从 大数据计算服务MaxCompute（包月）变成 大数据计算服务MaxCompute（按量付费），同时对应的用量明细选择的计量规格变成 大数据计算服务MaxCompute（按量付费）。当您使用的包年包月...

计费项与计费方式概述

计算费用（按量付费）MaxCompute支持对SQL、MapReduce、Spark、Mars（数据科学）、Lightning（交互式分析）和MCQA（查询加速）计算类型按量计费。说明 Lightning（交互式分析）服务将于2022年12月31日下线，详情请参见 MaxCompute ...

大数据科学计算

新品推荐