快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力,本文以一个零售电商行业的数仓搭建实验为例,为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现,帮助您深入了解阿里云...

概述

EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新公告。

技术架构选型

在数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

EMR数据开发停止更新公告

2022年2月21日21点起,E-MapReduce(简称EMR)数据开发功能停止更新,进入维护状态,会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能,请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

ETL工作流快速体验

案例提供的数据仅用于阿里云大数据开发治理平台DataWorks数据应用体验。仅 空间管理员 角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色,请参见 空间级模块权限管控。导入ETL工作流模板 您可以将DataWorks ETL工作流模板...

技术架构选型

在数据模型设计之前,您需要首先完成技术...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','language':'zh-CN',};

东软案例

阿里云Lindorm数据库让数字时代运维“灵动”起来,本文以东软集团有限公司为例,该集团归属于运营商、政务、汽车、医疗等行业。业务/技术亮点 移动端到云端业务全链路海量运维大数据存储。指标、日志等多源异构监控数据融合分析。99.99%...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...

云产品集成

大数据开发治理平台 DataWorks DataWorks 是一款为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源,管理 OceanBase 数据库中的数据,通过数据集成...

实现开发生产等多套环境隔离

使用DataWorks进行大数据开发时,支持对开发、测试、生产等环境进行隔离,当您联合使用了其他阿里云产品时,也可根据环境隔离诉求进行对应业务的环境设置与隔离,本文以DataWorks联合EMR、OSS等产品为例,为您介绍如何实现开发生产等多套...

相关的云服务

DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

DataWorks模块使用说明

使用流程概览:参考文档:DataWorks数据建模 子模块:数据开发(DataStudio)功能说明:数据开发(DataStudio)是一站式大数据开发平台,支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种数据引擎的数据处理任务。它集成了强大的...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据...

快速体验

涉及产品 本案例涉及以下产品:一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、加工、质量监控,以及数据可视化展现,您需提前开通该服务。详情请参见 开通DataWorks服务。云原生数据计算服务MaxCompute 实现底层加工...

实验介绍

涉及产品 本案例涉及以下产品:一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集,加工,质量监控,与数据可视化展现,您需提前开通该服务。详情请参见 开通DataWorks服务。云原生数据计算服务MaxCompute 实现底层加工...

使用DataWorks连接

DataWorks基于MaxCompute等引擎,提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间,绑定计算引擎后,您即可在DataWorks上创建对应引擎...

DataWorks on EMR数据安全方案

数据安全能力:任务管理 DataWorks提供了大数据开发运维等能力,其中工作空间、安全中心等功能模块可实现对数据计算任务的管理。工作空间:通过DataWorks的工作空间规划可以实现工作空间的人员管理、设置数据作业可见性和可运维性。...

DataWorks On EMR使用说明

背景信息 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

大数据AI公共数据集分析

教程简介 阿里云DataWorks基于多种数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。本教程通过DataWorks,联合云原生数据计算服务MaxCompute,使用数据AI公共数据集(淘宝、飞猪、阿里音乐、...

采集数据

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据,并且只支持在数据集成模块读取数据。章节目标 将MySQL存储的用户基本信息及OSS存储的网站访问日志数据,通过数据集成服务同步至...

扩展程序概述

产品能力 DataWorks作为阿里云一站式大数据开发与治理平台,在各项能力支持上预设了很多拓展点,例如,在标准模式下,简略来看,节点创建后完成代码开发后,需先提交到开发环境中进行验证,完成后再正式发布到生产环境中,后续每天根据调度...

开通DataWorks服务

成功登录后,即可进入 申请免费试用DataWorks 页面,左侧导航栏产品类别选择 数据计算>数据开发与服务,单击 大数据开发治理平台DataWorks 产品的 立即试用。在弹出的购买试用面板选择开通的地域,勾选服务协议后单击 立即试用。开通...

自媒体:易撰

所属行业:自媒体 网站地址:易撰 客户介绍 长沙营智信息技术有限公司是专业的新媒体大数据服务商,其旗下知名品牌易撰,基于新媒体大数据挖掘技术及NLP算法分析,为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

通过函数计算节点实现GitHub实时数据分析与结果发送

开通 大数据开发治理平台DataWorks 并创建工作空间(本实践以使用标准模式工作空间为例,简单模式的操作类似)。操作详情请参见 开通DataWorks服务、创建工作空间。开通 云原生数据计算服务MaxCompute,并创建MaxCompute项目。操作详情请...

采集数据

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据,并且只支持在数据集成模块读取数据。章节目标 将MySQL存储的用户基本信息及OSS存储的网站访问日志,通过数据集成服务将数据同步至...

准备环境

前提条件 大数据开发治理平台DataWorks:购买DataWorks,详情请参见 购买指引。说明 因本示例提供的数据资源都在华东2(上海),建议购买时选择地域为华东2(上海)。对象存储OSS:已开通OSS服务,具体步骤,请参见 开通OSS服务。步骤一:...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。业务背景 为了更好的制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体地理属性、社会属性等,...

产品优势

数据集成需要较大开发 数据集成需要较大开发 日志服务(SLS)通过 LTS(原BDS)服务介绍,支持实时订阅SLS数据到Lindorm。数据集成需要较大开发 数据集成需要较大开发 服务能力 可用性SLA 提供SLA保障,单集群99.9%,双集群高可用99.99%。...

数据开发

本文从需求分析、规划业务流程、规划表管理、同步数据以及加工数据几方面,为您介绍数据开发。需求分析 将MySQL的数据采集到MaxCompute 贴源层表中,进行清洗和加工,产出最终的概览应用表。规划业务流程 业务流程是DataWorks针对业务实体...

客户案例

价值体现 基于飞天数据平台产品,快狗打车不仅机器成本节约30%以上,数据开发效率提升100%。从Java Storm迁移到Flink SQL使实时计算开发周期大大减少,维护更加容易,数据一致性得到更好地保障,提升了业务监控大屏的准确性和实时性,...

行业趋势与背景

分布式数据库是发展方向 近年来,随着互联网、大数据的飞速发展,特别是“双十一”指数型的成交总额发展曲线,让世界看到了中国电子商务业务的火箭式发展势头。而同时,对于背后的业务支撑系统来说,同样经历了火箭式的系统压力增长。以...

整体架构

BSP模式,通过DAG进行任务切分,分批调度,满足有限资源下大数据量计算,支持计算数据落盘。羲和计算引擎提供自动切换能力,即当查询使用MPP模式无法在一定耗时内完成时,系统会自动切换为BSP模式进行执行。湖仓版新增的开源Spark计算引擎...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴数据建设方法论,支撑数据中台建设,同时与...

客户案例

MaxCompute已被广泛应用于各领域处理云上大数据,帮助众多企业解决了海量数据分析问题,同时降低企业运维成本,企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息,请参见 行业客户案例...

数据治理中心概述

在进行数据开发前,可通过检查项对数据开发功能相关的约束进行检查,当检查出存在不符合约束规范的内容时,系统会生成影响开发流程正常执行的问题事件。您可基于该事件处理暴露的问题,以便数据开发流程可以正常执行。治理项检测。用于提交...

创建数据脱敏规则

背景信息 DataWorks的脱敏场景分为静态脱敏和动态脱敏:动态脱敏:包括 数据开发/数据地图展示脱敏、数据分析展示脱敏、MaxCompute引擎层脱敏、Hologres引擎层脱敏 等场景。静态脱敏:指数据集成静态脱敏场景。各场景的详细介绍,请参见 ...

概览

为了更好地指导您使用数据管理DMS(Data Management),DMS推出解决方案系列文档,旨在通过最佳实践(Step by Step)的形式向您介绍DMS研发流程、数据安全、数据开发的解决方案。研发流程解决方案 DMS为在线流程化系统,可统一管理企业内...

文档修订记录

DataWorks数据安全治理路线 2023年12月更新记录 时间 特性 类别 描述 产品文档 2023.12.29 新增功能 数据开发 若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务,需先将已创建的数据源或集群绑定至数据开发...

EMR Workbench

通过EMR Workbench,您可以轻松进行数据开发,以及交互式数据分析,并设计复杂的数据处理工作流。功能介绍 EMR Notebook 交互式编程环境:支持Jupyter笔记本,提供灵活的编程环境。多语言支持:允许使用Python、SQL等多种语言进行数据分析...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生大数据计算服务 MaxCompute 数据库备份 DBS 数据传输服务 云数据库 RDS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用