什么是阿里云Cloudera CDP

企业数据云平台Cloudera Data Platform(简称阿里云CDP),是阿里云和Cloudera联合打造的阿里云上的大数据平台。Cloudera CDP企业数据云平台 Cloudera企业数据云是社区版CDH的全新商业化升级产品,是阿里云和Cloudera联合打造阿里云上的...

产品简介

容灾演练:帮助客户基于阿里云大数据平台上进行核心业务无损、风险可控的容灾演练,培养平台运维团队的平台级容灾处置操作能力,发现并解决业务系统与平台的稳定性隐患。(仅限混合云)。跨地域迁移支持服务 面向云上用户提供阿里云公有云...

E-MapReduce本地盘实例规模数据集测试

数据基准测试用于公平、客观评测不同数据产品/平台的功能和性能,对用户选择合适的大数据平台产品具有重要的参考价值,TPC-DS逐渐成为了业界公认的数据系统测试基准。本文以阿里云E-MapReduce+D1本地盘方案模拟TPC-DS测试的演示方案...

什么是EMR on ACK

阿里云E-MapReduce(简称EMR)on ACK提供了全新构建大数据平台的方式。您可以将开源数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注...

面临的业务挑战

此外,大数据平台的组合方案在细粒度的访问权限控制、高可靠性方面,特别对于金融等行业客户的数据容灾、高可用的需求无法很好支持。使用成本高 数据在企业中的使用,具有明显的周期性和不确定性。一方面,业务发展变化很快,其数据规模...

开通DataWorks服务

背景信息 为帮助您快速体验大数据平台的核心场景,每个地域首次开通DataWorks时,平台默认自动在相应地域为您开通MaxCompute按量付费产品(该产品不使用则不收费),并创建服务关联角色 AliyunServiceRoleForDataWorksEngine、...

基于MaxCompute进行大数据BI分析

通过MaxCompute、AnalyticDB for MySQL强大的数据加工和分析能力,降低大数据平台建设的门槛,轻松解决了海量数据的计算问题。同时有效降低企业成本,并保障数据安全。与第三方开源生态无缝对接,在不侵入用户应用的情况下,传输日志至日志...

产品概述

产品描述 功能 描述 Dataphin全托管 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎,为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。关于Dataphin的更多介绍,请参见 什么是...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统,对接各种数据计算引擎,以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台,高效率完成数据全链路研发流程,建设企业数据治理体系,同时提供优质高效的交流服务,本文为您介绍...

发展历程

关键性里程碑 2009年9月,ODPS(即现在的MaxCompute)大数据平台飞天项目正式启动。2010年10月,阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月,平台的单集群规模已达到5000台。2014年7月,平台开始对外提供服务,完全替换...

准备工作

开通企业数据智能平台 企业数据智能平台默认为关闭状态,使用前需要前往 AnalyticDB PostgreSQL版 控制台开通。登录 云原生数据仓库AnalyticDB PostgreSQL版控制台。...单击左侧导航栏中的 数据平台。单击 开通数据中台。

相关的云服务

本文为您介绍典型场景下,使用开源大数据平台E-MapReduce时通常会使用到的其他云服务。云服务名称 说明 云服务器ECS 使用云服务器ECS(Elastic Compute Service)作为集群的节点,每个ECS实例集群中的一个节点。专有网络VPC 专有网络VPC...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...

实现开发生产等多套环境隔离

使用DataWorks进行大数据开发时,支持对开发、测试、生产等环境进行隔离,当您联合使用了其他阿里云产品时,也可根据环境隔离诉求进行对应业务的环境设置与隔离,本文以DataWorks联合EMR、OSS等产品为例,为您介绍如何实现开发生产等多套...

数据模型概述

DDM目前支持逻辑模型和物理模型建模,其中物理模型又分为关系型数据模型和非关系型数据模型,支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层,DDM是数据建模工具,支持设置表、字段等物理属性。

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产,经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式,灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据,确保...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境,作为阿里云E-MapReduce的一部分,它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench,您可以轻松进行数据开发,以及交互式数据分析,并设计复杂的数据处理工作...

数据仓库研发规范概述

大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作。而不完善的研发流程,会...

Spark概述

Spark是一个通用的大数据分析引擎,具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示,基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库,分别用于离线ETL(Extract-Transform-Load)、在线数据...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景,其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

Attu操作指南

Attu是一款功能强大的开源数据库管理系统工具,专为Milvus向量数据库设计,提供直观易用的图形化界面,以简化数据库管理、集合(Collection)管理以及复杂的向量检索任务。前提条件 已完成网络安全设置,详情请参见 网络访问与安全设置。...

HDFS概述

HDFS(Hadoop Distributed File System)是一种Hadoop分布式文件系统,具备高度容错特性,支持高吞吐量数据访问,可以在处理海量数据(TB或PB级别以上)的同时最大可能的降低成本。HDFS适用于规模数据的分布式读写,特别是读多写少的场景...

DataWorks On EMR使用说明

背景信息 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

SelectDB数据

通过私网连接:私网连接具有较大的带宽和较稳定的连接,因此推荐使用私网连接。在使用私网连接之前,需要按照 连接设置 文档,创建一个终端节点。在终端节点创建完成且状态从 创建中 变为 可用,连接状态从 连接中 变为 已连接 后,您还...

什么是DataWorks

获奖经历 IDC:大数据平台公共云市场份额中国第一 Forrester:全球云数据仓库卓越表现者象限,国内唯一 中国信通院:首个通过577项技术要求的数据平台整体解决方案评测 中国电子学会科技进步特等奖 中国国际软件博览会金奖 浙江省科技进步...

SQL查询

工作空间已配置数据源:DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源,若要操作非引擎数据源,请确保已创建数据源,详情请参见 创建并管理数据源。已拥有某数据源在数据分析模块的查询权限:...

DataHub数据

DataHub数据源作为数据中枢,为您提供读取和写入DataHub数据库的双向通道,能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DataHub数据同步的能力支持情况。支持的版本 DataHub Reader通过DataHub的Java SDK读取DataHub中的数据...

什么是数据资源平台

协同 数据同步:数据同步可实现离线、实时多源异构数据的便捷同步或接入,系统可提供完善的数据接入配置、数据模板配置、数据同步任务运行监控等功能,有效保障数据接入的稳定性和可控性,满足各类平台数据源及应用系统间的数据汇聚需求...

云产品集成

常见云产品如下:大数据开发治理平台 DataWorks 实时计算 Flink 版 数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现 前提条件 已获取 OceanBase 数据库的基本连接信息,详细步骤请参见 获取连接参数。大数据开发治理平台 ...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...

通用数据开发

说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。数据收集与存储:您需要同步...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析...

大数据AI公共数据集分析

教程简介 阿里云DataWorks基于多种大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、...

数据集成概述

背景信息 面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。...

到期提醒与停机策略

本文将为您介绍数据资源平台的到期提醒与停机策略。到期提醒 数据资源平台实例到期前的168小时(7天)、72小时、24小时,系统将会给您发短信,提醒您所购买的实例即将到期。请您及时备份数据或续费,避免影响正常使用。停机策略 数据资源...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台,提供企业级数据资产构建能力和一致性使用体验,助力客户快速构建数据智能平台,实现数据资源统一管理,挖掘潜在规律,优化业务决策,让大数据真正的驱动客户业务。...

冷热分层

更多介绍请参见 结构化大数据分析平台设计、面向海量数据的极致成本优化-云HBase的一体化冷热分离 和 云上如何冷热数据分离。冷热数据 数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据数据量较,很少被访问,甚至...

授权信息

本文为您介绍 开源大数据平台 E-MapReduce(EMR)为RAM权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源大数据平台 E-MapReduce(EMR)的RAM代码(RamCode)为 emr,emr-apm-server,ecm,emr-serverless-spark,dls...

产品服务等级协议

本服务等级协议(Service Level Agreement,以下简称“SLA”)约定了阿里云向客户提供的数据资源平台的服务可用性等级...如您不同意阿里云对SLA所的修改,您有权停止使用数据资源平台,如您继续使用数据资源平台,则视为您接受修改后的SLA。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库备份 数据传输服务 云数据库 RDS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用