重要 该配置项为一个数组,配合数据分级使用,从类型1到类型n为递增的设置,例:类型1设置为10,则表示value值为0~10的数据将展示为10的大小,类型2设置为20,则表示value值为11~20的数据将展示为20的大小,如果数据分级配置项设置为3级,...
步骤一:创建数据源并配置网络连通性 使用数据服务创建API前,您需将数据库或数据仓库添加为DataWorks的数据源,并保障数据服务资源组与您的目标数据源网络连通,以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...
数据源 单击 配置数据源,可在 设置数据源 面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果,详情请参见 配置资产数据。数据过滤器 数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击 添加过滤器...
准备工作 数据集成任务准备 开通DataWorks服务 开通MaxCompute,自动产生一个默认的MaxCompute数据源,并使用主账号登录 DataWorks 创建工作空间。您可在工作空间中协作完成工作流,共同维护数据和任务等,因此使用DataWorks前需要先创建...
背景信息 ODC 支持在源数据库中的数据归档到目标数据库后,删除源数据库中的数据,以提高数据库查询性能,降低在线存储成本。本文档旨在介绍如何通过提交数据清理工单实现归档数据。原理介绍 前提条件 清理的表中必须包含主键。注意事项 ...
读取Loghub同步某字段有数据但是同步过来为空 读取Loghub同步少数据 读取Loghub字段映射时读到的字段不符合预期 读取kafka配置了endDateTime来指定所要同步的数据的截止范围,但是在目的数据源中发现了超过这个时间的数据 Kafka中数据量少...
背景信息 ODC 支持定时将源数据库中的表数据归档至其它目标数据库中,以解决因线上数据增多影响查询性能与业务运作的问题。本文档旨在介绍如何通过提交数据归档工单实现归档数据。原理介绍 前提条件 归档的表中必须包含主键。注意事项 前置...
说明 如为增量同步任务,DTS要求源数据库的数据日志保存24小时以上,如为全量同步和增量同步任务,DTS要求源数据库的数据日志至少保留7天以上(您可在全量同步完成后将数据日志保存时间设置为24小时以上),否则DTS可能因无法获取数据日志...
计算引擎类型 选择设置 计算引擎设置需要提前采购计算引擎MaxCompute资源,系统以此来支持相关数据的建设工作。需要选择计算引擎类型(目前仅开放MaxCompute计算类型),配置计算引擎所在的集群,例如Endpoint等信息。系统以此来支持该计算...
规则名称 规则类型 规则等级 规则配置 非工作时间查询大数据量敏感数据 数据访问风险 低 如下时间段查询数据量大于10000时命中该规则。周一至周五:22:00~24:00。周六至周日:00:00~24:00。相似SQL查询 数据访问风险 低 十分钟内查询相似...
通常,大数据系统中的工作流涉及多部门、多责任人且跨系统的数据,如何才能协调好这些业务系统准时、保质保量地产出数据,避免出现因业务系统宕机/脏数据导致数据延时产出、产出脏数据,关乎到企业数据业务的连续性问题甚至高层的信任问题...
当您所需要管理多个DataWorks工作空间且需要复用一套数仓规划时,面对跨多个工作空间的复杂数据体系,可以通过设计空间来共享一套数据建模工具,针对整个数据体系进行统一的数仓规划、维度建模及指标定义等工作。本文为您介绍DataWorks建模...
GitHub十大热门编程语言 DataWorks MaxCompute 函数计算 OSS 数据集成 数据开发 基于GitHub Archive公开数据集,通过DataWorks 数据集成 模块获取过去1小时GitHub中提交次数最多的代码语言数据,在DataStudio 数据开发 模块通过函数计算...
2023-12 功能名称 功能描述 发布时间 发布地域 使用客户 相关文档 数据开发(DataStudio)绑定数据源 若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务,需先将已创建的数据源或集群绑定至数据开发(DataStudio)...
数据库网关提供私网数据库远程访问的连接服务。通过数据库网关,您可以使用云服务访问并管理本地IDC或其他云厂商的数据库。工作原理 本地安装一个数据库网关代理(database ...相关操作 准备工作 新建数据库网关 添加数据库 查看网关状态
数据工作站可以结合大语言模型给业务开发、数据开发、分析师和数据运营同学赋能,提升数据交付效率和数据自助分析的效率。当您需要将查询的数据、测试的数据、以及数据变化趋势等信息,以文档的形式进行交付,并在交付后,希望有可以替您...
数据导出 进行大量数据分析或提取相关数据时可以使用数据导出功能。数据追踪 由于误操作等原因导致数据不符合预期时,可以通过数据追踪将数据快速恢复到正常状态。测试数据构建 测试数据结构可以在频繁的数据准备过程中确保数据安全、保障...
解决方案 数据归档概述 数据归档功能支持定时将大表的数据归档至其他数据库,同时支持源表数据删除、表空间整理回收等。一键建仓 一键创建实时同步的数据仓库,数据在秒级的延迟下,同步至AnalyticDB MySQL版数据库中。数据库迁移 通过创建...
开通 大数据开发治理平台DataWorks 并创建工作空间(本实践以使用标准模式工作空间为例,简单模式的操作类似)。操作详情请参见 开通DataWorks服务、创建工作空间。开通 云原生大数据计算服务MaxCompute,并创建MaxCompute项目。操作详情请...
解决方案 数据归档 数据归档功能支持定时将大表的数据归档至其他数据库,同时支持源表数据删除、表空间整理回收等。一键建仓 一键创建实时同步的数据仓库,数据在秒级的延迟下,同步至AnalyticDB MySQL版数据库中。数据库迁移 通过创建工单...
数据归档 数据归档功能定时将大表的数据归档至其他数据库,支持源表数据删除、表空间整理回收等功能。数据库迁移 通过创建工单实现数据库迁移、校验和清理的闭环操作。运维管理 通知管理 可根据您的业务需求,订阅不同功能模块的消息事件,...
在DataWorks的 管理中心,用户可以按照 工作空间维度 进行操作,包括配置工作空间的基本设施、选择合适的计算引擎、接入不同的数据源、注册开源集群、配置扩展程序,以及管理工作空间成员的权限和角色;此外,用户还可以在 全局维度 进行...
本文为您列出数据迁移与数据同步的常见问题和相关解答。什么是数据迁移、数据同步?DTS的数据迁移与数据同步工作原理是什么?DTS的数据迁移与数据同步有什么区别?使用DTS遇到预检查报错,如何解决?什么是数据迁移、数据同步?数据迁移:...
正向切换是数据迁移必不可少的一个流程,通过正向切换,数据传输可以确保完成了数据正向迁移的相关工作,并且您可以根据业务需求启动反向增量组件。正向切换主要涉及的工作如下:您需要自行确认已完成数据迁移,并等待正向同步延迟被追平。...
拉链表是数据仓库设计中用来处理数据变化的一种技术,它允许保存历史数据,记录一个事物从开始到当前状态的所有变化信息,可以反映任意时间点数据的状态。本文将为您介绍基于MaxCompute引擎在DataWorks上实现拉链表ETL的案例。前提条件 已...
您可以在数据源管理页面,分享数据源权限给相应的工作空间,并进入被分享的工作空间查看该数据源。本文为您介绍如何管理数据源权限及查看分享的数据源。背景信息 通常数据源会承载数据的具体地址、账户和密码等敏感信息,但普通开发人员仅...
数据源地址动态适配 对于数据订阅及同步链路,容灾系统还会监测数据源的连接地址切换等变更操作,一旦发现数据源发生连接地址变更,它会动态适配数据源新的连接方式,在数据源变更的情况下,保证链路的稳定性。数据迁移工作原理 数据迁移...
数据治理中心概述 五、数据服务 DataWorks数据服务旨在为企业提供全面的数据服务及共享能力,帮助企业统一管理面向内外部的API服务。详情请参见 数据服务概述。六、开放平台 DataWorks支持开放能力,帮助您快速实现各类应用系统对接...
使用DataWorks进行数据建模时,数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后,模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...
背景信息 为提高不同使用场景下的数据治理效率和质量,DataWorks为您提供以下视角:数据管理视角:在数据资产管理、数据安全加固、数据权限管理等数据管理场景下,建议您使用数据管理视角,关注查看数据管理过程中,表的统计数据、安全权限...
如果您需要对RDS实例中的敏感数据进行管控和脱敏,可以使用数据管理DMS提供的敏感数据保护功能。费用 请参见 敏感数据保护功能定价。功能介绍 数据管理DMS的敏感数据管理提供如下功能:提供敏感数据资产大盘,解决企业敏感数据分布的统一纳...
数据模型的作用 数据模型是在业务需求分析之后,数据仓库工作开始时的第一步。良好的数据模型可以帮助我们更好地存储数据,更有效率地获取数据,保证数据间的一致性。模型设计的基本原则 高内聚和低耦合 一个逻辑和物理模型由哪些记录和...
数据传输服务DTS(Data Transmission Service)是阿里云提供的实时数据流服务,支持关系型数据库(RDBMS)、非关系型的数据库(NoSQL)、数据多维分析(OLAP)等数据源间的数据交互,集数据同步、迁移、订阅、集成、加工于一体,助您构建...
开通DataWorks服务后,在使用DataWorks的各项服务时,不同产品服务的功能模块(例如,任务开发、定时任务调度、数据同步任务调度、大规模工作流监控、数据质量监控、数据服务API调用)会根据使用量和占用的资源量进行按量计费。详情请参见 ...
本文以实现构建数据标准来设计数据模型,并通过规范化的流程,下发模型至计算引擎为例,为您介绍DataWorks数据建模的流程。前提条件 如果您使用的是阿里云主账号,请下载建模工具。如果您使用的是RAM用户,请完成授权并下载建模工具。详情...
介绍:数据迁移 实践:数据迁移最佳实践 常见问题:数据上传下载常见问题 大规模数据迁移 MaxCompute提供MMA(MaxCompute Migration Assist)迁移工具支撑大规模数据迁移。开发与分析 数据类型 MaxCompute支持三种数据类型版本,为您介绍各...
说明 您可根据跨账号添加的数据源在A工作空间的使用场景,提前为RAM角色授权与相关权限,例如,若要在A工作空间查询B工作空间数据源下的表,需确保数据源配置的RAM角色已拥有该表的SELECT权限。账号A:使用账号B的用户信息创建数据源 说明 ...
在大数据领域,阿里云为企业用户提供了一整套数据安全方案,包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例,为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...
数据地图 为什么数据地图数据总览页存储量和存储趋势图相差较大?数据地图血缘展示延迟问题 数据地图新建表搜不到 当前表业务逻辑变更如何通知下游?哪些类型的Hive表支持在数据地图中预览?数据保护伞 数据保护伞为什么有时候查询脱敏有...
阿里云流数据处理平台数据总线DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布(Publish),订阅(Subscribe)和分发功能,让您可以轻松构建基于流式数据的分析和应用。数据总线 DataHub服务可以对各种移动设备,应用...