19阿里云双11怎么选合适的大数据计算-19阿里云双11怎么选合适的大数据计算文档介绍内容-阿里云

开通Dataphin

在阿里云官网，鼠标悬停至产品后，再将鼠标悬停至左侧导航栏的 大数据计算 上，单击数据开发与服务列下的智能数据建设与治理Dataphin。在Dataphin产品详情页，单击特惠购买，进入Dataphin购买页面。在购买页面，选择地域、版本、...

入湖基础操作

关系数据库全量入湖：可以实现RDS MySQL或PolarDB数据库表数据全量同步到数据湖，选择在数据源管理中配置好的数据源，将数据源对应数据库中选定表的数据全量同步到OSS中，如果待同步表中数据量大，则所消耗的资源也会比较大，建议在业务...

创建通用项目

如果您管理诉求较强，数据研发人员较多且能力及分工明确，数据计算存储预算较高，推荐此模式。Basic模式：完成项目的创建后，系统默认生成了Basic项目（开发和生产一体的项目）。Basic项目的数据生产过程稳定且便捷。如果您关注数据研发...

新建Flink Vvr SQL类型的公共节点

Flink Vvr SQL节点是流式节点，运行于Flink云计算资源之上，支持对RDS MySQL、Table Store、Hive、Kafka、Hbase、Phoenix、AnalyticDB MySQL和DataHub等类型的数据进行处理。本文介绍如何新建Flink Vvr SQL类型的公共节点。背景信息 Flink ...

新建Flink Vvr SQL类型的公共节点

Flink Vvr SQL节点是流式节点，运行于Flink云计算资源之上，支持对RDS MySQL、Table Store、Hive、Kafka、Hbase、Phoenix、AnalyticDB MySQL和DataHub等类型的数据进行处理。本文介绍如何新建Flink Vvr SQL类型的公共节点。背景信息 Flink ...

选型配置说明

选择合适的集群是E-MapReduce产品使用的第一步。E-MapReduce配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性要求，还应该考虑企业预算。大数据使用场景 E-MapReduce各集群的场景和核心组件如下表。说明具体各集群类型支持...

计算节点变配

当数据量和计算量动态增长，计算资源（CPU、磁盘、内存以及数据处理节点数量）成为数据处理速度的瓶颈时，您可以对实例动态扩展，在线变更实例规格和计算节点。目前 AnalyticDB PostgreSQL版不同的实例资源类型对计算节点变配的支持程度...

IoT物联网平台

您可以使用规则引擎数据流转，将数据转发至函数计算（FC）中，然后由函数计算运行函数脚本进行业务处理。前提条件已创建函数计算的服务和函数，并完成函数配置，验证函数能正常执行。函数计算使用方法，请参见函数计算文档。重要创建...

产品概述

阿里云流数据处理平台数据总线DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布(Publish)，订阅（Subscribe）和分发功能，让您可以轻松构建基于流式数据的分析和应用。数据总线 DataHub服务可以对各种移动设备，应用...

数据引入层（ODS）

ODS（Operational Data Store）层存放您从业务系统获取的最原始的数据，是其他上层数据的源数据。业务数据系统中的数据通常为非常细节的数据，经过长时间累积，且访问频率很高，是面向应用的数据。说明在构建MaxCompute数据仓库的表之前，...

简介

E)创建项目在渲管的项目管理页面创建项目，指定 OSS 的数据映射规则（也称 OSS 挂载，在计算节点启动的时候，OSS 上的数据会被挂载到节点的本地路径），选择计算节点镜像 ID，OSS 的输出路径（用于保存渲染结果），计算节点中的临时输出...

函数

自定义函数（UDF）：为MaxCompute提供了高度的灵活性，允许您根据具体业务逻辑进行定制化的数据计算和分析。自定义函数（UDF）可以进一步分为标量值函数（UDF）、自定义聚合函数（UDAF）和自定义表值函数（UDTF）三种类型。您在开发完成UDF...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

TPC-DS数据

MaxCompute通过TPC-DS官方工具生成了10GB、100GB、1TB、10TB四个规格的TPC-DS数据，此数据方便您在做产品测试时使用。本文为您介绍MaxCompute公开数据集中TPC-DS数据的基本信息，以及如何通过MaxCompute执行TPC-DS数据查询。简介 TPC ...

创建通用项目

如果您管理诉求较强，数据研发人员较多且能力及分工明确，数据计算存储预算较高，推荐此模式。Basic模式：完成项目的创建后，系统默认生成了Basic项目（开发和生产一体的项目）。Basic项目的数据生产过程稳定且便捷。如果您关注数据研发...

计费项与计费方式概述

您可以通过报价速算器预估费用，选择合适的计算方式 MaxCompute报价速算器下载。数据传输费用说明公网下载量费用从公网Endpoint读取数据时，需要按量收取数据下载费用。公网Endpoint请参考 Endpoint。共享资源组每个项目会设置一个免费...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定计算引擎后，您即可在DataWorks上创建对应引擎...

数据集成：全领域数据汇聚

DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络...开通使用开通DataWorks版本后，您即可根据需要购买数据集成资源组，选择合适的同步方案开发数据集成任务。开通使用的操作详情请参见数据集成章节。

新建Spark Batch类型的公共节点

数据结构输入表的数据格式，由数据模型定义，在下拉列表中选择输入数据的逻辑表名称，表示该计算资源中提供数据的数据表的结构。当选择数据表时，需保证输入的模型与上游节点的输出数据模型相同。当选择星号（*）时，代表数据结构为任意...

新建RDS MySQL类型的公共节点

数据结构输入表的数据格式，由数据模型定义，在下拉列表中选择输入数据的逻辑表名称，表示该计算资源中提供数据的数据表的结构。当选择数据表时，需保证输入的模型与上游节点的输出数据模型相同。当选择星号（*）时，代表数据结构为任意...

新建RDS MySQL类型的公共节点

数据结构输入表的数据格式，由数据模型定义，在下拉列表中选择输入数据的逻辑表名称，表示该计算资源中提供数据的数据表的结构。当选择数据表时，需保证输入的模型与上游节点的输出数据模型相同。当选择星号（*）时，代表数据结构为任意...

规格概述

基于实际业务诉求，规划项目所需要的存储资源和计算资源后才可以选择合适的产品规格。本文为您介绍MaxCompute提供的规格类型及差异点，并引导您如何选择规格。规格类型及差异 MaxCompute提供多种规格供您选择。每种规格都会涉及到与计费...

新建Hologres类型公共节点

Hologres离线数据节点，运行于Hologres云计算资源之上，支持对MaxCompute和Hologres类型的数据进行处理。本文介绍如何新建Hologres类型的公共节点。前提条件已新建Hologres类型的云计算资源，具体操作，请参见新建云计算资源。操作步骤 ...

新建Hive类型的公共节点

输入数据结构输入表的数据格式，由数据模型定义，在下拉列表中选择输入数据的逻辑表名称，表示该计算资源中提供数据的数据表的结构。当选择数据表时，需保证输入的模型与上游节点的输出数据模型相同。当选择星号（*）时，代表数据结构为...

新建Hive类型的公共节点

输入数据结构输入表的数据格式，由数据模型定义，在下拉列表中选择输入数据的逻辑表名称，表示该计算资源中提供数据的数据表的结构。当选择数据表时，需保证输入的模型与上游节点的输出数据模型相同。当选择星号（*）时，代表数据结构为...

同步节点

逻辑表输入表的数据格式，由数据模型定义，在下拉列表中选择，表示该计算资源中提供数据的数据表的结构。当选择数据表时，。当选择星号（*）时，表示数据结构为任意结构，用于对未创建数据模型的表进行操作，此时物理表必须选择已经存在的...

概述

库仓一站式（Zero-ETL）传统数据仓库，会通过数据ETL方式同步数据，采用MPP/BSP等并行计算架构可以很好解决OLAP复杂查询，但面相高并发的数据在线查询（Serving场景）会有明显的资源并发瓶颈，会通过数据回流到OLTP数据库提供在线查询。...

同步节点

逻辑表输入表的数据格式，由数据模型定义，在下拉列表中选择，表示该计算资源中提供数据的数据表的结构。当选择数据表时，。当选择星号（*）时，表示数据结构为任意结构，用于对未创建数据模型的表进行操作，此时物理表必须选择已经存在的...

新建Flink Vvp SQL类型的公共节点

Flink Vvp SQL节点是流式节点，运行于Flink云计算资源之上，支持对RDS MySQL、Table Store、Hive、Kafka、Hbase、Phoenix、AnalyticDB MySQL、AnalyticDB PostgreSQL和DataHub等类型的数据进行处理。本文介绍如何新建Flink Vvp SQL类型的...

表分布定义

AnalyticDB PostgreSQL版的默认分布策略为哈希分布，如果建表时未指定DISTRIBUTED子句，系统会选择主键或表的第一个合适的列作为分布键。如果表中没有合适的列，系统将会使用随机分布策略。随机分布 DISTRIBUTED RANDOMLY 系统会按循环的...

兼容性概述

BI分析工具连接MaxCompute，能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源，为您带来更高效的数据分析体验。为了帮助您更清晰地使用BI工具连接访问MaxCompute，本文为您介绍MaxCompute支持连接的BI分析工具，以及工具与...

操作手册

ii.OSS数据映射 OSS 数据映射（或者称 OSS 数据挂载），可以将 OSS 上的数据映射到计算节点的本地路径（windows 是盘符），一个作业中的所有计算节点可以共享访问到相同的数据。OSS 数据挂载有如下功能或限制：映射的目的路径必须根据计算...

应用场景

大数据场景：海量数据存储与分析 Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势低成本：高压缩比，数据冷热分离...

特征稳定性PSI

一、组件说明特征稳定性PSI（Population Stability Index）是一种用于比较两个不同时间段或数据集之间特征分布差异的指标。...组件截图二、参数说明参数名称参数说明选择特征字段选择想要进行PSI计算的字段名，多选。

数据分析整体趋势

近些年来，随着业务数据量的增多，企业需要能够对数据进行分析，助力商业决策，更好地发挥数据价值，而传统开源及商业关系型数据库通常为单机版，在海量数据分析场景下扩展能力有限，性能无法满足需求。以Teradata，Oracle Exadata为代表的...

Spark概述

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

适用场景

按应用类型选择 PolarDB-X 1.0 产品在高并发、分布式事务、复杂SQL优化、并行计算等方面都有比较好的用户沉淀和技术发展，适用于如下场景：对超高并发和大规模数据存储有较高要求的互联网在线事务类业务场景。传统企业级应用因业务发展导致...

创建数据集

创建服务前，您需要根据服务需求创建用于服务访问或使用的数据集。服务商在创建服务时可以直接选择已经创建的数据集，简化创建服务的步骤。本文介绍了服务商如何创建和发布数据集的详细流程。操作步骤登录计算巢控制台。在左侧导航栏中，...

Join优化

表S数据不移动，表R数据根据分区计算的结果发送到S表扫表的节点 Colocation Join 对于多个相关联的表，在建表时确保表的数据分片数量一致，相同Hash分桶在分布式系统中的分布一致，那么实际查询时就可以跳过数据的Shuffle过程，直接进行...

新建开发环境场景并运行

数据结构输入表的数据格式，由数据模型定义，在下拉列表中选择，表示该计算资源中提供数据的数据表的结构。当选择数据表时，需保证输入的模型与上游节点的输出数据模型相同，物理表名可以自定义。当选择星号（*）时，代表数据结构为任意...

19阿里云双11怎么选合适的大数据计算

新品推荐