API实战实践

最佳实践:文件管理OpenAPI基础实践 最佳实践:表管理OpenAPI基础实践 通过OpenAPI创建、修改、删除离线同步任务 最佳实践数据开发、提交与运行OpenAPI基础实践 最佳实践数据ETL操作全流程实践 最佳实践:搭建自定义运维大屏 最佳实践...

调度参数配置最佳实践

背景信息 调度参数配置的相关应用场景及最佳实践如下:调度参数配置最佳实践 调度参数在数据集成的典型应用场景 各类型节点的调度参数配置示例:SQL类型节点及离线同步节点 PyODPS节点 通用Shell节点 自定义参数取值差异对比示例:不同格式...

调度参数典型场景配置示例

调度参数配置相关的典型场景及最佳实践如下:调度参数配置最佳实践 调度参数在数据集成的典型应用场景 各类型节点的调度参数配置示例:SQL类型节点及离线同步节点 PyODPS节点 通用Shell节点 自定义参数取值差异对比示例:不同格式自定义...

阶段二:数据安全防护措施及策略增强建设

在该阶段,DataWorks为您提供了新人入职自动化授权、按需申请数据权限&多级审批、数据可用而不可见、数据完整性与可用性专项治理等多个场景的最佳实践,帮助企业做好数据安全防护措施并建设更加完善的安全治理策略。场景一:新人入职自动化...

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合,海量离线数据分析可以应用于多种商业...架构图 方案详情 详情请参见 E-MapReduce弹性低成本离线大数据分析最佳实践。icmsDocProps={'productMethod':'created','language':'zh-CN',};

DataWorks数据安全治理路线

DataWorks基于数据安全治理的常见思路,针对资产梳理、技术体系建设和运营体系建设,提供了一系列数据安全产品能力,您可通过“基础防护建设、数据安全防护措施及策略增强建设、数据安全持续运营”三个阶段在DataWorks上落地数据安全治理...

Routine Load

例行导入(Routine Load)功能,支持用户提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到Doris中。本文主要介绍Routine Load功能的实现原理、使用方式以及最佳实践。使用限制 当前仅支持从Kafka进行例行导入。...

阶段一:基础防护建设

在该阶段,DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践,帮助企业做好数据安全治理的相关基础防护工作。场景一:数据分级分类 无论在任何行业,数据分级分类都是监管首要检查的...

阶段三:数据安全持续运营

在该阶段,DataWorks为您提供了数据违规下载实时阻断及审批、数据违规流转准实时告警等场景的最佳实践,帮助企业做好数据安全的持续运营。DataWorks可基于用户行为实时事件、实时审计日志进行分析,帮助您实时发现风险行为并及时响应。具体...

最佳实践:自定义任务发布封网管控

本文以一个任务发布封网管控的业务场景,如在数据开发页面提交发布节点事件为例,为您演示如何进行开放平台的相关配置。背景信息 本实践涉及的开放平台的相关功能介绍与基本概念可参见 OpenEvent概述、扩展程序概述。开启并配置消息订阅...

最佳实践:表管理OpenAPI基础实践

背景信息 在进行本实践之前,建议您先参考以下链接,了解DataWorks的OpenAPI的基本能力和概念:开放API(OpenAPI)元数据相关OpenAPI 下文为您提供了表管理的多个细分场景的实践实践1:查询表列表 实践2:查询表详情 实践3:查找表的血缘...

实时同步任务告警设置最佳实践

对于DataWorks数据集成的实时同步任务、全增量同步任务的实时同步阶段,您可以设置任务告警规则,用来监控同步任务的状态,本文为您介绍实时同步任务告警设置的指标有哪些,并为您示例一个最佳实践。告警规则指标 您可以在DataWorks的运维...

2020年

基于MaxCompute的大数据BI分析最佳实践 2020-04-03 新增MaxCompute支持限制单SQL消费功能。新说明 介绍Project级别和Session级别的单SQL限制消费。消费监控告警消费控制 2020年3月更新记录 时间 特性 类别 描述 产品文档 2020-03-27 支持三...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统,对接各种大数据计算引擎,以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台,高效率完成数据全链路研发流程,建设企业数据治理体系,同时提供优质高效的交流服务,本文为您介绍...

本地盘最佳实践

最佳实践 选型 对于大数据、重型数据库应用,带本地盘的实例(例如i2、d1等)在成本、存储访问时延上有着较的优势。如果您业务场景对存储I/O性能有极高要求,并且应用层具备高可用架构,可以购买本地盘实例。此外,如果您有大数据集群,...

相关的云服务

本文为您介绍典型场景下,使用开源大数据平台E-MapReduce时通常会使用到的其他云服务。云服务名称 说明 云服务器ECS 使用云服务器ECS(Elastic Compute Service)作为集群的节点,每个ECS实例集群中的一个节点。专有网络VPC 专有网络VPC...

授权信息

本文为您介绍 开源大数据平台 E-MapReduce(EMR)为RAM权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源大数据平台 E-MapReduce(EMR)的RAM代码(RamCode)为 emr,emr-apm-server,ecm,emr-serverless-spark,dls...

什么是阿里云Cloudera CDP

企业数据平台Cloudera Data Platform(简称阿里云CDP),是阿里云和Cloudera联合打造的阿里云上的大数据平台。Cloudera CDP企业数据平台 Cloudera企业数据云是社区版CDH的全新商业化升级产品,是阿里云和Cloudera联合打造阿里云上的...

什么是EMR on ACK

阿里云E-MapReduce(简称EMR)on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注...

典型场景

基于湖构建数据平台,支持BI、挖掘等业务 对象存储OSS可以作为湖存储,DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖 实时数据湖:支持DB的CDC与消息数据(如Kafka)入湖,构建...

通用数据开发

说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。数据收集与存储:您需要同步...

客户案例

价值体现 从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、DataWorks后,部分任务有10倍以上的性能提升,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将宝宝树现有的场景实时化(...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析...

上海新能源汽车车辆基础数据

成立以来,数据中心在多源数据融合应用方面做了许多探索,陆续建成了“上海市新能源汽车大数据平台”、“上海市动力电池溯源管理平台”、“上海市加氢站与氢燃料电池汽车公共数据平台”、“GEF6上海能源管理中心平台”,有效发挥了数据在...

Napatech案例

Lindorm支持海量数据的低成本存储、快速批量导入和实时访问,具备高效的增量及全量数据通道,可轻松与各类大数据平台集成,完成数据规模离线分析。基于Lindorm的解决方案,用户在采用到100Gbps+流量产生的大量数据包元数据直接通过...

2021年

分区和列操作 2021-10-19 新增日期数据格式转换最佳实践。新实践 新增STRING、TIMESTAMP、DATETIME互相转换实践案例。日期数据格式转换:STRING、TIMESTAMP、DATETIME互相转换 2021-10-12 新增观远数据连接MaxCompute操作指导。新说明 ...

项目分配与安全

在为企业级大数据平台创建项目时,建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目,对于ADS层的数据,按照应用的粒度建立项目。项目分配 在本教程中,建议参考下图建立您的MaxCompute项目,图中的每一个方块代表一个项目。...

简介

系统兼容开源GeoMesa、GeoServer等生态,内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等,结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力,广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

客户案例

MaxCompute已被广泛应用于各领域处理云上大数据,帮助众多企业解决了海量数据分析问题,同时降低企业运维成本,企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息,请参见 行业客户案例...

ClickHouse概述

开源大数据平台E-MapReduce(简称EMR)的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能,并且在开源的基础...

应用场景

阿里云开源大数据平台E-MapReduce(简称EMR)具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式,包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

开通DataWorks服务

背景信息 为帮助您快速体验大数据平台的核心场景,每个地域首次开通DataWorks时,平台默认自动在相应地域为您开通MaxCompute按量付费产品(该产品不使用则不收费),并创建服务关联角色 AliyunServiceRoleForDataWorksEngine、...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能,将 云消息队列 Kafka 版 集群上的数据迁移至阿里云大数据计算服务MaxCompute,方便您对离线数据进行分析加工。前提条件 在开始本教程前,确保您在同一地域中已完成以下操作:云消息队列 Kafka 版 ...

风险识别规则

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控,也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则,从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

审批中心概述

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控,也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则,从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

JindoFS实战演示

云上计算云下数据:HDFS缓存加速 云上计算云下数据:HDFS缓存加速 2021-06-29 随着云计算越来越成熟,带来弹性扩容、运维方便、节省成本等优点,越来越多企业开始将大数据平台搬到云上。云下的HDFS集群存在历史数据,其中可能包含敏感数据...

Tair扩展数据结构概览

最佳实践:基于TairSearch加速多列索引联合查询 基于TairSearch构建股票K线实时计算服务 在TairSearch中使用Msearch实现索引分片搜索 在TairSearch中使用bool进行组合条件查询 Graph 图数据库GDB RedisGraph 图数据库(Graph Database,...

Tair命令概览

最佳实践:基于TairSearch加速多列索引联合查询 基于TairSearch构建股票K线实时计算服务 在TairSearch中使用Msearch实现索引分片搜索 在TairSearch中使用bool进行组合条件查询 Graph 图数据库GDB RedisGraph 图数据库(Graph Database,...

Hadoop集群迁移至DataLake集群

背景信息 E-MapReduce(简称EMR)新版控制台是EMR发布的下一代云原生开源大数据平台,为用户提供全新平台体验、全新开发平台、全新资源形态和全新分析场景。新版控制台的功能特点,详情请参见 EMR新版控制台上线公告。EMR on ECS作为EMR...

设置调度依赖最佳实践

删除某表的输入输出 您在进行数据开发时,经常会用到静态表(数据通过本地文件上传到表中),这部分静态数据没有产出任务。配置依赖时,您需要删除静态表的输入:如果静态表不满足 t_的格式,不会被处理为临时表,此时您需要删除静态表的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库备份 DBS 云数据库 RDS 云数据库 Redis 版 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用