什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与...

数据质量:全流程的质量监控

DataWorks的全流程数据质量监控功能为您提供35种预设表级别、...数据质量为您解决以下问题数据库频繁变更问题 业务频繁变化问题 数据定义问题 业务系统的脏数据问题 系统交互导致质量问题 数据订正引发的问题 数据仓库自身导致的质量问题

某网约车公司车辆轨迹数据

解决方案 在原有的架构上引入了阿里云数据库,并将全量数据写到 云原生多模数据库 Lindorm 中,同时增量数据通过Kafka、Spark等实时同步到 云原生多模数据库 Lindorm,这样解决了客户线下数据数据大的问题。客户需要存储最近3年的数据...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

数据模型概述

DDM目前支持逻辑模型和物理模型建模,其中物理模型又分为关系型数据模型和非关系型数据模型,支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层,DDM是数据建模工具,支持设置表、字段等物理属性。

概述

如果使用自建开源大数据生态体系,例如Hive、Spark等,需要专门的大数据工程师来操作和运维,且操作流程也不像使用MySQL一样简单,成本极高。解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源(RDS、PolarDB for MySQL、MongoDB...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据...

数据集成概述

背景信息 面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。...

数据集成概述

背景信息 面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。...

风险识别管理(旧版)

识别的风险数据统一在 数据风险 页面进行展示和审计操作,同时会在 数据访问 页面相应的数据后打上识别标志。登录 DataWorks控制台,单击左侧导航栏的 数据建模与开发>数据开发,在下拉框中选择对应工作空间单击 进入数据开发。单击...

创建数据脱敏规则

DataWorks支持多种脱敏场景,您需根据需要选择合适场景创建相应数据脱敏规则。本文为您介绍如何创建脱敏规则,并在DataWorks中进行脱敏查询。背景信息 DataWorks的脱敏场景分为静态脱敏和动态脱敏:动态脱敏:包括 数据开发/数据地图展示...

创建概念模型:维度

维度是您观察业务状况的视角,您可在维度建模中规划并创建维度,后续创建维度表时进行关联,关联即可通过不同维度分析呈现不同视角的业务数据状况。如果您希望在维度表中直接关联使用已有维度,则可参考本文创建。本文为您介绍如何创建并...

DataWorks V3.0

MaxCompute:大数据计算服务MaxCompute(原ODPS)是一种快速、完全托管的EB级大数据计算引擎,是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持,且最成熟完备的计算引擎,目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

基本介绍

云数据库HBase增强版适用于在规模、吞吐、性能、可用性等方面有更高要求的企业级场景,面对大数据(无限扩展、高吞吐)、在线服务(低延时、高可用)、多功能查询的诉求,其可为用户提供无缝扩展、高吞吐、持续可用、毫秒级稳定响应、强弱...

数仓规划概述

使用DataWorks进行数据建模时,数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计,模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合,海量离线数据分析可以应用于多种商业系统环境,例如,电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。离线大数据分析概述 主流的三大分布式计算框架...

管理数据

查看数据源 创建数据,您可以在数据源列表查看所有已创建数据源的基本信息、详情和网络连接等信息,也可以根据数据源类型进行筛选、根据数据源的创建时间进行排序,以及模糊搜索指定数据源。登录 OceanBase 管理控制台。在左侧导航栏,...

互联网、电商行业离线大数据分析

概述 电商网站的销售数据通过大数据进行分析,可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据,触控大屏支持您自助查询数据,极大地提高数据的可读性。应用场景 电商...

数据建模

本文将为您介绍如何载入DataWorks中处理好的数据到人工智能平台PAI中,构建窃漏电用户的识别模型。前提条件 开始本文的操作前,请首先完成 加工数据 中的操作。新建实验 新建空白工作流并进入工作流,具体操作,请参见 新建自定义工作流。...

概述

EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新公告。

数据科学计算概述

Scikit-Learn:用于数据分析和数据挖掘任务的算法。为满足用户基于MaxCompute进行规模数据处理、分析、挖掘及模型训练的需求,MaxCompute提供了一套Python开发生态,让用户通过统一的Python编程接口一站式、高效地完成数据处理、加工及...

ECS实例说明

大数据型 使用本地SATA盘作存储数据,存储性价比高,是大数据量(TB级别的数据量)场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点;Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型 使用本地...

常见问题

1.售前咨询渠道 尊敬的“准”大数据专家服务用户您好:如果您准备购买阿里云大数据专家服务,但是遇到如服务范围、规格、服务选择等售前方面的问题,您可以通过钉钉与我们联系,您将“当面”获得阿里云大数据专家咨询专家的建议。...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...

面临的业务挑战

系统极复杂 大数据平台普遍存在使用复杂的问题。用户希望专注于核心业务,而非底层技术。用户希望使用的是“开箱即用”的方案,而不是陷入到高昂的学习成本、繁复的技术细节之中。用户渴望拥有一个简单易用的平台。此外,大数据平台的组合...

创建Hologres数据

进行数据同步:DataWorks的数据集成模块为您提供读取和写入数据至Hologres的能力,您可将其他数据源的数据同步至当前Hologres数据源,或将当前Hologres数据源的数据同步至其他数据源。同时,可根据需要选择离线同步、实时同步、同步解决...

实时同步字段格式

操作类型(I/D/U)数据对应的时间戳 是否是变更前(Y/N)是否是变更(Y/N)真实数据字段1 真实数据字段2 真实数据字段3 数据集成实时同步在同步MySQL、Oracle、Loghub和PolarDB类型的数据至DataHub或Kafka时,会在同步的目标端添加5个...

常见问题概览

无法通过MongoDB客户端连接到MongoDB实例 云数据库MongoDB是否支持公网访问 云数据库MongoDB版是否支持免密访问 如何排查无法连接MongoDB实例的问题?连接失败常见报错 连接实例常用方法概览 如何通过公网连接MongoDB实例 本地客户端通过...

2024年

操作审计事件数据迁移至MaxCompute 2024-03-26 新增Pandas API 新说明 MaxFrame提供了兼容Pandas的API接口,您可以用类似于Pandas的方式来操作MaxCompute中的数据,同时利用MaxCompute强大的分布式计算能力,简化您在大数据环境下的数据...

引擎功能

时序数据高效读写 Lindorm时序引擎提供高效的并发读写,支持每秒百万数据点的数据读取及千万数据点的写入能力。数据写入 支持以下方式进行数据写入:使用SQL的INSERT语句(推荐使用JDBC)。兼容InfluxDB的写入Line Protocol。兼容OpenTSDB...

数据质量衡量

在了解保障基于MaxCompute的数据仓库数据质量的方案,您还需要进一步学习如何制定一套标准度量方案,以及判断质量监控方案是否合适业务需求以及如何改进。例如,针对每一个数据质量事件,必须分析原因和处理过程,制定后续同类事件预防...

数据

本文将解答与数据源相关的问题。Q:Databricks数据洞察的支持哪些数据源?目前支持读写阿里云对象存储(OSS)的数据。Q:是否支持当前的DDI集群访问其他集群的HDFS数据?支持访问同账号下的EMR Hadoop集群上的HDFS数据

Purge

清除当前表或者整个项目下所有表的备份数据,清除不可以恢复。注意事项 表的备份数据被清除不可以恢复,请谨慎操作。命令格式 清除单张表的备份数据:purge table;table_name:指定清除备份数据的表名称。清除当前项目下所有表的备份...

MongoDB 4.0

升级数据版本 数据迁移 变更实例配置 按时间点将备份数据恢复至新建实例 恢复云数据库MongoDB单个或多个数据库 升级数据版本:升级采用轮转升级的方式进行,升级过程中会自动对实例进行2~3次重启,请在业务低峰期执行并确保应用...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台,满足大数据和AI融合下的数据处理需求,为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

Napatech案例

增加过多的节点会带来极大的成本开销及管理复杂问题。流量数据包元数据的存储和索引技术的性能提升需求越来越迫切。解决方案 阿里 云原生多模数据库 Lindorm 是一款适用于任何规模、多种模型的云原生数据库服务,其基于存储计算分离、多模...

版本发布说明

修复TruncateTableTableDetail视图的GSI相关数据会丢失的问题。修复alter table修改AVG_ROW_LENGTH时,执行失败的问题。修复部分非模板化二级哈希分区建表语法,被当作模板化哈希分区语法的问题。发布日期:2023-11-13 版本:V5.4.17 ...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台,提供企业级数据资产构建能力和一致性使用体验,助力客户快速构建数据智能平台,实现数据资源统一管理,挖掘潜在规律,优化业务决策,让大数据真正的驱动客户业务。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生大数据计算服务 MaxCompute 云数据库 RDS 数据库备份 DBS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用