快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力,本文以一个零售电商行业的数仓搭建实验为例,为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现,帮助您深入了解阿里云...

DB2数据

DB2数据源作为数据中枢,为您提供读取和写入DB2数据库的双向通道,能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DB2数据同步的能力支持情况。支持的版本 DB2 Reader和DB2 Writer使用的DB2驱动版本为 IBM Data Server Driver ...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

数据归档

RDS MySQL实例数据量较时,存储成本会随之增高。业务数据通常分为冷数据和热数据,将对象存储(OSS)作为归档冷数据的存储介质,能够大幅降低用户的存储成本。功能简介 在开启RDS MySQL通用云盘的数据归档OSS功能后,用户可通过执行下面...

ECS实例说明

大数据型 使用本地SATA盘作存储数据,存储性价比高,是大数据量(TB级别的数据量)场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点;Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型 使用本地...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

减灾与应急时空解决方案与案例

公司主营OpenRIS灾害风险大数据平台提供了海量灾害数据的快速地图展示、统计查询、切割下载、上传数据定制化在线分析等功能,实现了灾害数据与模型一体化云服务。在数据与系统上云过程前,遇到了如下挑战:长期积累的时空数据类型多、数据...

离线同步数据质量排查

如果写出数据和目标存储已有数据发生数据约束(主键冲突、唯一键约束、外键约束等),数据库则使用来源数据update更新目标表已有数据行,在目标表存在多个数据约束的情况下,数据替换可能会失败并产生脏数据 如果写出数据和目标存储已...

自媒体:易撰

所属行业:自媒体 网站地址:易撰 客户介绍 长沙营智信息技术有限公司是专业的新媒体大数据服务商,其旗下知名品牌易撰,基于新媒体大数据挖掘技术及NLP算法分析,为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力,本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库 本场景推荐的架构如下。适用行业:全行业...

DataWorks on EMR数据安全方案

大数据领域,阿里云为企业用户提供了一整套数据安全方案,包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例,为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

备份集查询功能概览

背景信息 传统的备份数据查询两种方式:将备份数据文件导入至数据库,再通过数据库操作对数据进行查询,但是这种方式耗费时间长,且可能会导致数据文件被修改。通过 Hive 的方式直接对文件进行查询,但是这种方式对数据文件格式严格的...

基于MaxCompute进行大数据BI分析

本实践以电商行业为例,通过MaxCompute、DataWorks对业务数据和日志数据进行ETL处理,并同步至分析型数据库MySQL(AnalyticDB MySQL)进行实时分析,再通过Quick BI进行可视化展示。背景信息 MaxCompute:用于进行规模数据计算,详情请...

Tunnel命令常见问题

java.io.IOException:Error writing request body to server 产生原因 这是上传数据到服务器时产生的异常,通常是因为上传过程中的网络连接断开或超时导致的:当您的数据源并非是本地文件,需要从数据库等地方获取时,数据在写入的过程中还...

产品优势

本文介绍 云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息 云原生多模数据库 Lindorm 兼容...生态 开源大数据生态Hadoop/Spark等、阿里云数据生态 开源大数据生态Hadoop/Spark等 易用性 免运维,维护简单 状态服务,维护较复杂

产品优势

数据安全中心DSC(Data Security Center)可扫描和识别海量数据,帮您实时获取数据的安全状态。本文介绍 数据安全中心 的产品优势。合规性 使用数据安全中心产品,可以帮助企业满足等保2.0对“云计算环境下安全审计”及“个人信息保护”的...

应用场景

物联网设备无时无刻不在产生海量的设备状态数据和业务消息数据,这些数据有助于进行设备监控、业务分析预测和故障诊断。背景信息 设备将原始数据通过 MQTT 协议发送到物联网平台,经由物联网平台将数据转发到消息服务系统,继而通过流计算...

DMS支持的数据库

本文介绍数据管理DMS支持录入的云数据库、他云/自建的数据库类型。支持的云数据库 关系型数据库 RDS MySQL RDS SQL Server RDS PostgreSQL RDS MariaDB PolarDB MySQL版 PolarDB PostgreSQL版 PolarDB PostgreSQL版(兼容Oracle)PolarDB...

DataWorks V3.0

MaxCompute:大数据计算服务MaxCompute(原ODPS)是一种快速、完全托管的EB级大数据计算引擎,是规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持,且最成熟完备的计算引擎,目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

相关的云服务

DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

01新建模型目录

DIM:全称Dimension,公共维度层,是在存储层的基础上清洗脏数据、筛选有价值数据,并且对明细数据层的事实维度表进行事实维度分离。与明细数据层相比,维度数据层有着相同的数据粒度,但是具有更小的数据量、更快的查询速度。操作步骤 ...

测试数据构建

RDS MariaDB、其他来源MariaDB OceanBase MySQL模式 PolarDB PostgreSQL版(兼容Oracle)背景信息 功能测试或者性能测试时,往往需要准备测试数据,通常以下几种方法:手工编写:效率低,不适用于大数据量场景。维护生成测试数据脚本:成...

2021年

2021-12-03 全部地域 参考:渐进式计算 MaxCompute物化视图功能增强 MaxCompute物化视图支持创建分区和聚簇,在查询物化视图时如果发现分区数据不存在物化视图中时,可以设置系统自动穿透去查询源表,并返回源表和物化视图的汇总数据。...

OSS Foreign Table功能概览

OSS Foreign Table(简称OSS FDW)是基于PostgreSQL Foreign Data Wrapper(简称PG FDW)框架开发的用于访问OSS数据数据分析方案,支持将OSS数据导入至 AnalyticDB PostgreSQL版,且提供分区表功能,在性能、功能以及稳定性上都优于OSS ...

数据分析概述

允许您利用工作空间中现有的数据源作为数据分析的数据集。数据源一部分是DataWorks支持的引擎自带数据源,一部分是自建数据源。在SQL查询中可预览数据集中的数据,并快速生成该表的查询SQL语句,详情请参见 SQL查询。电子表格 电子表格是...

账单数据订阅及查询分析

DataWorks及MaxCompute:DataWorks基于MaxCompute等大数据引擎,支持您在线进行SQL分析、业务洞察、编辑和分享数据,以及将查询结果保存为可视化图表卡片,快速搭建可视化数据报告。订阅账单数据后,用户中心会将相关账单数据同步至指定...

聚合支付方案

阿里云从业务扩展性、数据流动性、服务高可用三方面入手,通过多款云数据库产品为利楚扫呗制定聚合支付方案,解决利楚扫呗在业务扩展期遇到的数据存储空间不足、读写性能下降以及大数据分析空缺等问题。业务痛点 武汉利楚商务服务有限公司...

数据保护伞入门

数据保护伞 是一款数据安全管理产品,提供数据发现、数据脱敏、数据水印、访问控制、风险识别、数据溯源等功能,帮助您快速梳理敏感数据并进行安全管控,保障数据安全。本文示例使用内置规则对 xc_dpe_e2_dev 项目的 phone 数据脱敏,并...

概述

AnalyticDB PostgreSQL版 向量分析可以通过AI算法提取非结构化数据的特征,并利用特征向量作为非结构化数据的唯一标识,帮您快速且低成本地实现对非结构化数据检索和对结构化数据关联分析。向量数据库简介 在现实世界中,绝多数的数据都...

外部表概述

但这两种方法都不足之处:第一种方法需要在MaxCompute系统外部做一次中转,如果OSS数据量太,还需要考虑如何并发来加速,无法充分利用MaxCompute的规模计算能力。第二种方法通常需要申请UDF网络访问权限,还需要开发者自己控制作业...

表设计最佳实践

拉链表的设计 在数据仓库的数据模型设计过程中,经常会遇到如下需求:数据量较。表中的部分字段被更新。例如,用户的地址、产品的描述信息、订单的状态和手机号码等。需要查看某一个时间点或时间段的历史快照信息。例如,查看某一个订单...

通用数据开发

通常数据开发的总体流程...数据提取:分析与处理后的结果数据,需要同步导出至业务系统,以供业务人员使用其分析的价值数据展现与分享:数据提取成功后,可以通过报表、地理信息系统等多种展现方式,展示与分享数据分析、处理后的成果。

数据分析整体趋势

近些年来,随着业务数据量的增多,企业需要能够对数据进行分析,助力商业决策,更好地发挥数据价值,而传统开源及商业关系型数据库通常为单机版,在海量数据分析场景下扩展能力有限,性能无法满足需求。以Teradata,Oracle Exadata为代表的...

整体架构

云原生数据仓库AnalyticDB MySQL版 是阿里巴巴自主研发、经过超大规模以及...支持更规模的并发访问、更快读写能力以及更智能的混合查询负载管理等,实现更精细化的资源利用和更低成本的投入,让您能更加专注于业务发展,专注于数据价值

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台,满足大数据和AI融合下的数据处理需求,为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

概述

EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新公告。

大数据安全治理的难点

存储 众所周知,大数据系统以数据类型多(结构化、非结构化、半结构化)、数据(动辄PB级别)著称,某些巨头组织一天就能新增数十万甚至数百万张表,如此体量给数据分级分类带来了极挑战,通过人工进行数据分级分类显然是不现实的,...

功能特性

OSS数据源 一键入湖 通过DLA控制台配置数据源(RDS数据源、ECS自建数据数据)和目标OSS数据仓库,系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中,同时在数据仓库和DLA中创建与数据源表相同的表...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库,支持的数据类型具有多样性,包括结构化、半结构化以及非结构化的数据数据来源上包含数据数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生大数据计算服务 MaxCompute 云数据库 RDS 数据传输服务 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用