2024年

操作审计事件数据迁移至MaxCompute 2024-03-26 新增Pandas API 新说明 MaxFrame提供了兼容Pandas的API接口,您可以用类似于Pandas的方式来操作MaxCompute中的数据,同时利用MaxCompute强大的分布式计算能力,简化您在大数据环境下的数据...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

冷热分层

冷数据特点 数据:相对于热数据,冷数据通常需要保存较长时间,甚至永久保存。成本管控:数据量且访问频率较低,不宜投入过多成本。性能要求低:相较于普通的TP请求查询,无需在毫秒级别返回。冷数据的查询可以接受数十秒甚至更长...

概述

存储格式 数据来源及特点 数据量增大或减少 详细数据量 JSON 大量应用产生JSON类型的数据,冗余数据量。增大151.7%3.02GB AVRO Hadoop生态格式的数据,数据由部分遗留系统产生。增大8.3%1.3GB RCFile Hadoop生态格式的数据,数据由...

PolarDB PostgreSQL版(兼容Oracle)间的迁移

由于全量数据迁移会并发执行INSERT操作,导致目标数据库的表产生碎片,因此全量迁移完成后目标数据库的表存储空间会比源实例的表存储空间。请确认DTS对数据类型为FLOAT或DOUBLE的列的迁移精度是否符合业务预期。DTS会通过 ROUND(COLUMN,...

无感集成(Zero-ETL)

方案概述 在大数据时代,企业面临着大量分散在不同的系统和平台上的业务数据,为了有效地管理和利用这些数据,企业往往需要依赖于ETL工具对数据进行集中式管理。ETL是将上层业务系统的数据经过提取(Extract)、转换清洗(Transform)、...

大数据安全治理的难点

同时,大数据系统基于“存储、用户、入口、流转、交付”等多方面的特点,存在诸多安全治理难点。数据安全治理的关键问题 数据安全治理能否清楚、准确地回答如下问题,将从侧面反映安全治理项目是否能有效地落地。哪些资产需要被保护?您有...

数据服务入门

步骤一:创建数据源并配置网络连通性 使用数据服务创建API前,您需将数据库或数据仓库添加为DataWorks的数据源,并保障数据服务资源组与您的目标数据源网络连通,以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

Spark概述

Spark是一个通用的大数据分析引擎,具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示,基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库,分别用于离线ETL(Extract-Transform-Load)、在线数据...

概述

数据备份物理空间大小如下图所示:说明 PolarDB 集群 数据备份物理空间大小(上图中①所示):指数据备份的收费对象,物理空间大小是指所有数据备份(快照)独占的物理空间大小之和,PolarDB集群的数据与多个数据备份(快照)会复用相同的...

大数据专家服务

大数据专家服务(Bigdata Expert Service)是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障,帮助用户构建和持续优化的...

大数据开发治理平台 DataWorks

大数据开发治理平台 DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内部有数万...

产品简介

大数据专家服务 大数据专家服务(Bigdata Expert Service)是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障,帮助用户...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境,作为阿里云E-MapReduce的一部分,它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench,您可以轻松进行数据开发,以及交互式数据分析,并设计复杂的数据处理工作...

大数据AI公共数据集分析

本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等公共数据),指导您如何快速进行大数据分析,快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

常见问题

1.售前咨询渠道 尊敬的“准”大数据专家服务用户您好:如果您准备购买阿里云大数据专家服务,但是遇到如服务范围、规格、服务选择等售前方面的问题,您可以通过钉钉与我们联系,您将“当面”获得阿里云大数据专家咨询专家的建议。...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

mysqldump

当您需要备份或者迁移 云数据库SelectDB 中的数据时,通过mysqldump工具,可以将数据库的...使用mysqldump导出数据和表结构仅用于开发测试或者数据量很小的情况,请勿用于大数据量的生产环境。相关文档 mysqldump的详细信息请参见 mysqldump。

准备环境

为保证您可以顺利完成本次实验,请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和 人工智能平台 PAI。前提条件 注册阿里云账号,详情请参见 注册阿里云账号。实名认证,详情请参见 个人实名认证 背景信息 本次...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与...

互联网、电商行业离线大数据分析

概述 电商网站的销售数据通过大数据进行分析后,可以在屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据,触控大屏支持您自助查询数据,极地提高数据的可读性。应用场景 电商...

发展历程

关键性里程碑 2009年9月,ODPS(即现在的MaxCompute)大数据平台飞天项目正式启动。2010年10月,阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月,平台的单集群规模已达到5000台。2014年7月,平台开始对外提供服务,完全替换...

应用场景

数据分析业务 云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理,适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步,简化数据操作...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

DataWorks on EMR数据安全方案

大数据领域,阿里云为企业用户提供了一整套数据安全方案,包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例,为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力,本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库 本场景推荐的架构如下。适用行业:全行业...

基于MaxCompute进行大数据BI分析

本实践以电商行业为例,通过MaxCompute、DataWorks对业务数据和日志数据进行ETL处理,并同步至分析型数据库MySQL(AnalyticDB MySQL)进行实时分析,再通过Quick BI进行可视化展示。背景信息 MaxCompute:用于进行规模数据计算,详情请...

自媒体:易撰

所属行业:自媒体 网站地址:易撰 客户介绍 长沙营智信息技术有限公司是专业的新媒体大数据服务商,其旗下知名品牌易撰,基于新媒体大数据挖掘技术及NLP算法分析,为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的...

开发Dataphin数据源并加速数据查询

数据环境对后续选择物理表和逻辑表的影响说明如下:选择了 生产环境,后续支持选择Basic和Prod业务板块中的逻辑表,支持选择Basic和Prod项目中的物理表。选择了 开发环境,后续支持选择Dev业务板块中的逻辑表,支持选择Dev项目中的物理表。...

相关的云服务

DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

数据分析整体趋势

大数据数据库一体化:早期大数据技术以牺牲一定程度一致性为基础提供分布式能力,解决了传统单机数据库的扩展性不足问题,在MapReduce基础上提供了标准SQL接口,架构上也逐步采用了部分MPP数据库技术;另一方面,分布式数据库也快速发展...

概述

DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,为您提供 数据集成、数据开发、数据地图、数据质量 和 数据服务 等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘...

数据模型概述

DDM目前支持逻辑模型和物理模型建模,其中物理模型又分为关系型数据模型和非关系型数据模型,支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层,DDM是数据建模工具,支持设置表、字段等物理属性。

管理Dataphin数据源权限

参数 描述 数据环境 选择申请Dataphin数据源权限的环境。所属项目 选择申请Dataphin数据源所属的项目。Dataphin数据源 选择Dataphin数据源分组及Dataphin数据源。逻辑表 选择该Dataphin数据源下的逻辑表。系统支持选择多个逻辑表。物理表 ...

数据集成概述

背景信息 面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源(RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据数据)和目标OSS数据仓库,系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 云数据库 Redis 版 云数据库 RDS 数据库备份 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用