数据质量管理流程

在业务系统的数据生成过程中进行卡点校验。详情请参见 离线数据加工卡点。对数据风险点进行监控,包括数据的质量风险和及时性。详情请参见:数据质量风险监控 数据及时性监控$icmsDocProps={'productMethod':'created','language':'zh-CN',...

数据质量管理流程

在业务系统的数据生成过程中进行卡点校验。详情请参见 离线数据加工卡点校验。对数据风险点进行监控,包括数据的质量风险和及时性。详情请参见:数据质量风险监控 数据及时性监控$icmsDocProps={'productMethod':'created','language':'zh-...

Napatech案例

Napatech公司的用户可以将数据包采集和分析的能力提升至200G,然而上层软件产生的流量数据包元数据也爆增,给后台数据库(比如开源的HBase/ElasticSearch)的存储和索引能力带来极大的挑战。增加过多的节点会带来极大的成本开销及管理复杂...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

产品概述

阿里云流数据处理平台数据总线DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布(Publish),订阅(Subscribe)和分发功能,让您可以轻松构建基于流式数据的分析和应用。数据总线 DataHub服务可以对各种移动设备,应用...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力,本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库 本场景推荐的架构如下。适用行业:全行业...

数据集成概述

背景信息 面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。...

应用场景

数据审计 智能解析数据库及大数据的通信流量,细粒度审计数据访问行为,通过对数据源全量行为的审计溯源、危险攻击的实时告警、风险语句的智能预警,为您最敏感的数据库资产做好最安全的监控保障。个人信息合规 可精准区分和保护个人数据,...

查看并管理已生成实例

生成实例是对周期任务发起立即运行补数据操作或待生成实例生成的可运行实例。您可以对已生成实例执行重跑、终止、置为成功继续调度、暂停或恢复等操作。本文为您介绍如何查看并管理已生成实例。已生成 实例入口 请参见 运维中心入口,...

数据分析整体趋势

大数据数据库一体化:早期大数据技术以牺牲一定程度一致性为基础提供分布式能力,解决了传统单机数据库的扩展性不足问题,在MapReduce基础上提供了标准SQL接口,架构上也逐步采用了部分MPP数据库技术;另一方面,分布式数据库也快速发展...

查看并管理已生成实例

生成实例是对周期任务发起立即运行补数据操作或待生成实例生成的可运行实例。您可以对已生成实例执行重跑、终止、置为成功继续调度、暂停或恢复等操作。本文为您介绍如何查看并管理已生成实例。已生成 实例入口 请参见 运维中心入口,...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据...

数据集成概述

背景信息 面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。...

外部表概述

随着大数据业务的不断扩展,新的数据使用场景在不断产生,MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力,正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

数据仓库研发规范概述

大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作。而不完善的研发流程,会...

数据分析概述

DataWorks提供的数据分析平台,可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中,您不仅可以在线洞察数据,还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势 与本地数据分析相比...

查看并管理已提交实例

已提交实例是对周期任务发起立即运行补数据操作或待提交实例生成的可运行实例。您可以对已提交实例执行重跑、终止、置为成功继续调度、暂停或恢复等操作。本文为您介绍如何查看并管理已提交实例。已提交实例 入口 在Dataphin首页,单击顶部...

查看并管理已提交实例

已提交实例是对周期任务发起立即运行补数据操作或待提交实例生成的可运行实例。您可以对已提交实例执行重跑、终止、置为成功继续调度、暂停或恢复等操作。本文为您介绍如何查看并管理已提交实例。已提交实例 入口 在Dataphin首页,单击顶部...

全增量同步任务运维

您可以在DataWorks 运维中心 的 查看周期实例 页面查看该同步任务Merge实例的执行情况,如果Merge任务和全量补数据操作产生冲突,您可以:暂停全量补数据操作,等待Merge任务执行完成后,再执行全量补数据操作。冻结即将运行的Merge实例,...

使用MaxCompute控制台(离线)

查看上传记录 提交上传后,若数据量较,需要耗费一些时间,您无需在提交页面一直等待,可后续通过单击 数据上传 页面右上角的 查看上传记录 查看通过该功能上传数据的详情记录。说明 通过该页面的 查看上传记录 查询到的记录详情也包含...

数据迁移

本文为您介绍数据迁移的最佳实践,包含将其他业务平台的业务数据或日志数据迁移至MaxCompute,或将MaxCompute的数据迁移至其它业务平台。背景信息 传统关系型数据库不适合处理海量数据,如果您的数据存放在传统的关系型数据库且数据量庞大...

数据保护伞概述

使用流程 数据保护伞为您提供敏感数据规则配置、识别敏感数据、查看识别结果、处理敏感数据等管控流程,帮助您在敏感数据产生的事件前、中、后各阶段管控梳理项目中的敏感数据,保障数据安全。具体流程及相关功能介绍如下。步骤一:事前...

基本概念

数据资产:数据资源平台中存在大量的数据表、标签、API等各类数据资产,数据管理者通过数据汇聚、数据治理、数据分析后,需要对整个平台数据进行统一管控,了解平台的核心数据资产,提供对应的数据资产管理规范。统一服务 应用:是调用API...

数据倾斜诊断

复制分布方式通常只会用在数据量小的表中,如果数据大的表使用复制分布方式,会导致数据急剧膨胀。哈希(HASH)分布 该分布方式会根据分布键HASH值将数据分布到各个计算节点上,该方式的关键在于如何选择分布键,分布键选择不正确时,...

导出结构和数据

背景信息 ODC 支持批量导出数据库对象的结构和数据。通过 ODC 导出任务可以分别导出数据库对象的结构和数据、仅导出数据或者仅导出结构。导出结构和数据:同时导出数据库对象的定义语句及其数据。仅导出数据:仅导出表/视图对象的数据。仅...

创建并管理数据

若您想在DataWorks操作您的数据库或数据仓库(例如,MaxCompute项目数据),需先在DataWorks的数据源管理页面,将数据库或数据仓库创建为DataWorks的数据源,并将该数据源绑定至DataWorks相应的功能模块使用。例如,同步MaxCompute数据前,...

技术架构选型

数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

Kafka增量数据同步至MaxCompute

本文以将Kafka增量数据同步至MaxCompute的一个实践为例,为您介绍Kafka的分钟、小时、天增量数据定时调度写入MaxCompute小时、天分区表的配置详情。注意事项 Kafka的版本需要大于等于0.10.2小于等于2.2.x,且Kafka启用了记录时间戳,并且...

技术架构选型

数据模型设计之前,您需要首先完成技术...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','language':'zh-CN',};

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明 上图中,虚线框内的开发流程均可基于阿里云数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的...

数仓规划概述

使用DataWorks进行数据建模时,数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程数据集市、主题域进行设计。完成设计后,模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

用户价值

数据开发更简单:平台提供的各种工具产品能够极大的简化数据开发过程,缩短数据治理周期,降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程,完成流水线式的数据生产作业,提升数据资源生产效率、消除数据供应品质差异。...

配置数据质量监控

本案例通过DataWorks数据质量功能及时感知用户画像分析案例源端数据的变更与ETL(Extract Transform Load)过程产生的脏数据。基于用户画像分析加工流程,汇总质量监控规则如下:表名 需求明细 ods_raw_log_d 对每日同步的原始日志数据...

配置数据质量监控

本案例通过DataWorks数据质量功能及时感知用户画像分析案例源端数据的变更与ETL(Extract Transformation Load)过程产生的脏数据。基于用户画像分析加工流程,汇总质量监控规则如下:表名 需求明细 ods_raw_log_d 对每日同步的原始日志...

生成测试数据

背景信息 OceanBase 开发者中心(OceanBase Developer Center,ODC)提供模拟数据功能供用户在测试数据库性能或者验证功能等需要大量模拟数据的场景下,能够快速根据表中的字段类型生成数据。注意事项 单次模拟数据上限为 1 亿行。拥有检查...

数据服务:低成本快速发布API

数据服务支持通过零代码或自助SQL的双模式,将各类数据源下的数据生成数据API,同时支持函数计算来辅助加工API的请求参数及返回结果。数据服务采用Serverless架构,用户无需关心运行环境等基础设施,即可将API服务一键发布至API网关。...

大数据安全治理的难点

存储 众所周知,大数据系统以数据类型多(结构化、非结构化、半结构化)、数据(动辄PB级别)著称,某些巨头组织一天就能新增数十万甚至数百万张表,如此体量给数据分级分类带来了极挑战,通过人工进行数据分级分类显然是不现实的,...

简介

系统兼容开源GeoMesa、GeoServer等生态,内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等,结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力,广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

数据订阅操作指导

数据订阅功能可以帮助您获取数据库的实时增量数据,适用于缓存更新策略、业务异步解耦、异构数据源的数据实时同步和复杂ETL的数据实时同步等多种业务场景。本文介绍数据订阅功能的具体使用流程,帮助您快速掌握创建、监控、管理数据订阅...

查看并管理定时调度补数据任务

定时调度补数据任务是指任务将按照配置的定时调度时间生成并运行补数据实例,进行历史数据的回刷。本文将为您介绍如何查看并管理定时调度类型的补数据任务。定时调度补数据任务入口 请参见 运维中心入口,进入 运维 中心。按照下图操作指引...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生大数据计算服务 MaxCompute 数据传输服务 数据库备份 DBS 云数据库 RDS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用