大数据平台最佳实践-大数据平台最佳实践文档介绍内容-阿里云

API实战实践

最佳实践：文件管理OpenAPI基础实践最佳实践：表管理OpenAPI基础实践通过OpenAPI创建、修改、删除离线同步任务 最佳实践：数据开发、提交与运行OpenAPI基础实践 最佳实践：数据ETL操作全流程实践最佳实践：搭建自定义运维大屏最佳实践...

调度参数配置最佳实践

背景信息调度参数配置的相关应用场景及最佳实践如下：调度参数配置最佳实践 调度参数在数据集成的典型应用场景各类型节点的调度参数配置示例：SQL类型节点及离线同步节点 PyODPS节点通用Shell节点自定义参数取值差异对比示例：不同格式...

调度参数典型场景配置示例

调度参数配置相关的典型场景及最佳实践如下：调度参数配置最佳实践 调度参数在数据集成的典型应用场景各类型节点的调度参数配置示例：SQL类型节点及离线同步节点 PyODPS节点通用Shell节点自定义参数取值差异对比示例：不同格式自定义...

阶段二：数据安全防护措施及策略增强建设

在该阶段，DataWorks为您提供了新人入职自动化授权、按需申请数据权限&多级审批、数据可用而不可见、数据完整性与可用性专项治理等多个场景的最佳实践，帮助企业做好数据安全防护措施并建设更加完善的安全治理策略。场景一：新人入职自动化...

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合，海量离线数据分析可以应用于多种商业...架构图方案详情详情请参见 E-MapReduce弹性低成本离线大数据分析最佳实践。icmsDocProps={'productMethod':'created','language':'zh-CN',};

DataWorks数据安全治理路线

DataWorks基于数据安全治理的常见思路，针对资产梳理、技术体系建设和运营体系建设，提供了一系列数据安全产品能力，您可通过“基础防护建设、数据安全防护措施及策略增强建设、数据安全持续运营”三个阶段在DataWorks上落地数据安全治理...

Routine Load

例行导入（Routine Load）功能，支持用户提交一个常驻的导入任务，通过不断的从指定的数据源读取数据，将数据导入到Doris中。本文主要介绍Routine Load功能的实现原理、使用方式以及最佳实践。使用限制当前仅支持从Kafka进行例行导入。...

阶段一：基础防护建设

在该阶段，DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践，帮助企业做好数据安全治理的相关基础防护工作。场景一：数据分级分类无论在任何行业，数据分级分类都是监管首要检查的...

阶段三：数据安全持续运营

在该阶段，DataWorks为您提供了数据违规下载实时阻断及审批、数据违规流转准实时告警等场景的最佳实践，帮助企业做好数据安全的持续运营。DataWorks可基于用户行为实时事件、实时审计日志进行分析，帮助您实时发现风险行为并及时响应。具体...

最佳实践：自定义任务发布封网管控

本文以一个任务发布封网管控的业务场景，如在数据开发页面提交发布节点事件为例，为您演示如何进行开放平台的相关配置。背景信息本实践涉及的开放平台的相关功能介绍与基本概念可参见 OpenEvent概述、扩展程序概述。开启并配置消息订阅...

最佳实践：表管理OpenAPI基础实践

背景信息在进行本实践之前，建议您先参考以下链接，了解DataWorks的OpenAPI的基本能力和概念：开放API（OpenAPI）元数据相关OpenAPI 下文为您提供了表管理的多个细分场景的实践：实践1：查询表列表实践2：查询表详情实践3：查找表的血缘...

实时同步任务告警设置最佳实践

对于DataWorks数据集成的实时同步任务、全增量同步任务的实时同步阶段，您可以设置任务告警规则，用来监控同步任务的状态，本文为您介绍实时同步任务告警设置的指标有哪些，并为您示例一个最佳实践。告警规则指标您可以在DataWorks的运维...

2020年

基于MaxCompute的大数据BI分析最佳实践 2020-04-03 新增MaxCompute支持限制单SQL消费功能。新说明介绍Project级别和Session级别的单SQL限制消费。消费监控告警消费控制 2020年3月更新记录时间特性类别描述产品文档 2020-03-27 支持三...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

本地盘最佳实践

最佳实践 选型对于大数据、重型数据库应用，带本地盘的实例（例如i2、d1等）在成本、存储访问时延上有着较大的优势。如果您业务场景对存储I/O性能有极高要求，并且应用层具备高可用架构，可以购买本地盘实例。此外，如果您有大数据集群，...

授权信息

本文为您介绍开源大数据平台 E-MapReduce（EMR）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce（EMR）的RAM代码（RamCode）为 emr,emr-apm-server,ecm,emr-serverless-spark,dls...

什么是阿里云Cloudera CDP

企业数据云平台Cloudera Data Platform（简称阿里云CDP），是阿里云和Cloudera联合打造的阿里云上的大数据平台。Cloudera CDP企业数据云平台 Cloudera企业数据云是社区版CDH的全新商业化升级产品，是阿里云和Cloudera联合打造阿里云上的大...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

通用数据开发

说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的数据，存储在业务系统所对应的数据库中，包括MySQL、Oracle和RDS等类型。数据收集与存储：您需要同步...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

上海新能源汽车车辆基础数据

成立以来，数据中心在多源数据融合应用方面做了许多探索，陆续建成了“上海市新能源汽车大数据平台”、“上海市动力电池溯源管理平台”、“上海市加氢站与氢燃料电池汽车公共数据平台”、“GEF6上海能源管理中心平台”，有效发挥了数据在...

Napatech案例

Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与各类大数据平台集成，完成数据的大规模离线分析。基于Lindorm的解决方案，用户在采用到100Gbps+流量产生的大量数据包元数据直接通过...

2021年

分区和列操作 2021-10-19 新增日期数据格式转换最佳实践。新实践新增STRING、TIMESTAMP、DATETIME互相转换实践案例。日期数据格式转换：STRING、TIMESTAMP、DATETIME互相转换 2021-10-12 新增观远数据连接MaxCompute操作指导。新说明 ...

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

ClickHouse概述

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

开通DataWorks服务

背景信息为帮助您快速体验大数据平台的核心场景，每个地域首次开通DataWorks时，平台默认自动在相应地域为您开通MaxCompute按量付费产品（该产品不使用则不收费），并创建服务关联角色 AliyunServiceRoleForDataWorksEngine、...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

风险识别规则

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

审批中心概述

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

JindoFS实战演示

云上计算云下数据：HDFS缓存加速云上计算云下数据：HDFS缓存加速 2021-06-29 随着云计算越来越成熟，带来弹性扩容、运维方便、节省成本等优点，越来越多企业开始将大数据平台搬到云上。云下的HDFS集群存在历史数据，其中可能包含敏感数据...

Tair扩展数据结构概览

最佳实践：基于TairSearch加速多列索引联合查询基于TairSearch构建股票K线实时计算服务在TairSearch中使用Msearch实现索引分片搜索在TairSearch中使用bool进行组合条件查询 Graph 图数据库GDB RedisGraph 图数据库（Graph Database，...

Tair命令概览

最佳实践：基于TairSearch加速多列索引联合查询基于TairSearch构建股票K线实时计算服务在TairSearch中使用Msearch实现索引分片搜索在TairSearch中使用bool进行组合条件查询 Graph 图数据库GDB RedisGraph 图数据库（Graph Database，...

Hadoop集群迁移至DataLake集群

背景信息 E-MapReduce（简称EMR）新版控制台是EMR发布的下一代云原生开源大数据平台，为用户提供全新平台体验、全新开发平台、全新资源形态和全新分析场景。新版控制台的功能特点，详情请参见 EMR新版控制台上线公告。EMR on ECS作为EMR...

设置调度依赖最佳实践

删除某表的输入输出您在进行数据开发时，经常会用到静态表（数据通过本地文件上传到表中），这部分静态数据没有产出任务。配置依赖时，您需要删除静态表的输入：如果静态表不满足 t_的格式，不会被处理为临时表，此时您需要删除静态表的...

大数据平台最佳实践

新品推荐