大数据的高级运用-大数据的高级运用文档介绍内容-阿里云

客户案例

打造离线实时一体化数据中台，构建统一、完整的大数据应用链路，服务内部几大核心业务。全链路数据治理提高数据可用性，让数据在中台进行自由流动，保证数据准确、准时、一致，成本削减1亿元。提高业务迭代效率，数据更新频率由1天变成10...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

应用场景

数据传输服务DTS（Data Transmission Service）支持数据迁移、数据订阅和数据实时同步功能，帮助您实现多种典型应用场景。不停机迁移数据库传输方式：数据迁移为了保证数据的一致性，传统的迁移过程需要您在迁移数据时停止向源数据库写入...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

IoT数据自动化同步至云端解决方案

物联网的体系结构包括设备、网络、平台、分析、应用和安全，其中分析部分的主要内容为大数据分析。大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案...

应用场景

本文为您介绍Databricks数据洞察适用的典型应用场景。数据湖分析 Databricks数据洞察支持计算存储分离的数据湖架构。使用阿里云对象存储OSS作为云上存储，DDI集群提供灵活的计算资源，OSS上的数据可以被多个DDI集群共享，减少数据冗余。...

索引优化

在大部分传统的TP型数据库中，索引可以极大的提高数据的访问效率。但是在类似与 AnalyticDB PostgreSQL版这样的分布式数据库中，应该谨慎的选择索引的使用。在大部分场景下，AnalyticDB PostgreSQL版更适合快速的顺序扫描，或者结合稀疏...

数据服务概述

数据服务作为统一的数据服务出口，实现了数据的统一市场化管理，有效地降低数据开放门槛的同时，保障了数据开放的安全。前提条件已购买数据服务增值服务，开通Dataphin 常见数据应用问题一般从需求提出到需求交付分为：需求提出-需求...

Napatech案例

Napatech公司的用户可以将数据包采集和分析的能力提升至200G，然而上层软件产生的流量数据包元数据也爆增，给后台数据库（比如开源的HBase/ElasticSearch）的存储和索引能力带来极大的挑战。增加过多的节点会带来极大的成本开销及管理复杂...

受众与核心能力

总之，使用DataWorks，您不仅可以进行海量数据的离线加工分析，还能完成数据的汇聚集成、开发、生产调度与运维、离线与实时分析、数据质量治理与资产管理、安全审计、数据共享与服务、机器学习、应用搭建等覆盖大数据全生命周期的最佳实践...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用：使用云数据库MongoDB作为大数据的云存储系统，随时进行数据提取分析，掌握行业动态。

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

添加宜搭数据源

宜搭是阿里巴巴自研的低代码应用构建平台，您可以通过可视化拖拽的方式，快速完成数据应用的搭建。本文为您介绍在DataV中添加和使用宜搭数据源的方法，以及相关参数配置说明。前提条件已通过钉钉登录宜搭控制台创建一个宜搭应用数据表单...

添加宜搭数据源

宜搭是阿里巴巴自研的低代码应用构建平台，您可以通过可视化拖拽的方式，快速完成数据应用的搭建。本文为您介绍在DataV中添加和使用宜搭数据源的方法，以及相关参数配置说明。前提条件已通过钉钉登录宜搭控制台创建一个宜搭应用数据表单...

应用场景

数据审计智能解析数据库及大数据的通信流量，细粒度审计数据访问行为，通过对数据源全量行为的审计溯源、危险攻击的实时告警、风险语句的智能预警，为您最敏感的数据库资产做好最安全的监控保障。个人信息合规可精准区分和保护个人数据，...

数据资产等级定义

本文为您介绍数据资产等级的定义，以及如何定义生产链路上的相关数据的资产等级。数据资产等级定义根据数据质量不满足完整性、准确性、一致性、及时性时，对业务的影响程度划分数据的资产等级。通常，划分为5个性质的等级：毁灭性质：数据...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

应用场景

大数据场景云数据库HBase支持海量全量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势如下：低成本：高压缩比，数据冷热分离，...

数据资产定级

数据的资产等级，可以根据数据质量不满足完整性、准确性、一致性、及时性对业务的影响程度进行划分。数据等级定义如下：毁灭性质：数据一旦出错，将会引起重大资产损失，面临重大收益损失等。标记为A1。全局性质：数据直接或间接用于企业级...

JindoFS实战演示

描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用、AI应用等。...

数据资产定级

数据的资产等级，可以根据数据质量不满足完整性、准确性、一致性、及时性对业务的影响程度进行划分。数据等级定义如下：毁灭性质：数据一旦出错，将会引起重大资产损失，面临重大收益损失等。标记为A1。全局性质：数据直接或间接用于企业级...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

应用场景

本节主要介绍 OceanBase 数据库的主要应用场景。交易支付透明拆分交易支付是蚂蚁集团最核心的一个业务，最初采用的是分库分表的解决方案。分库分表的方案给核心业务带来了水平扩展的能力，同时也带来了灰度升级的能力，让核心业务的系统性...

数据质量保障原则

一致性一致性通常体现在跨度很大的数据仓库中。例如，某公司有很多业务数仓分支，对于同一份数据，在不同的数仓分支中必须保证一致性。例如，从在线业务库加工到数据仓库，再到各个数据应用节点，用户ID必须保持同一种类型，且长度也要...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

应用场景

大数据场景：海量数据存储与分析 Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势低成本：高压缩比，数据冷热分离...

升级

可选增值功能包描述数据萃取面向各行各业数据价值深度挖掘的诉求，数据萃取为您提供可视化的ID链接、行为解析和标签萃取，进一步帮助您提炼可直接应用的高价值标签数据，助力您实现业务的融会贯通并驱动创新。数据服务数据服务为您提供...

外部表概述

MaxCompute支持使用外部表功能查询和分析存储于OSS等外部存储系统的数据。该机制使得用户可以无需将数据导入到MaxCompute内部存储，直接对外部数据进行操作，从而提供了数据处理的灵活性和方便性。背景信息 MaxCompute SQL作为分布式数据...

资产全景

在流动页面，为您可视化展示数据引入、物理表数和逻辑表数，为您提供数据输出后的数据查询及应用功能：将鼠标悬停在数据引入模块上，为您展示的数据源个数、数据表接入量Top5 和数据表接入量Least5。数据源：统计昨天有数据同步...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

资产质量概述

背景信息面对各行各业日趋强烈的大数据建设、管理及应用的诉求，Dataphin应用场景的多样性及复杂性随之增加。因业务系统的原始数据的规范性无法得以保障，所以Dataphin需要定义数据分析的质量，以满足资产质量的时效性、准确性、完整性、...

ETL工作流快速体验

案例提供的数据仅用于阿里云大数据开发治理平台DataWorks数据应用体验。仅空间管理员角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色，请参见空间级模块权限管控。导入ETL工作流模板您可以将DataWorks ETL工作流模板...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

创建DataV大屏（模板篇）

本文主要介绍如何使用宜搭系统，通过创建空白应用后创建模板大屏，并配置应用中模板大屏的数据源和修改大屏标题的功能。背景信息宜搭数字化大屏视频功能讲解，请参见如下视频：登录宜搭平台操作步骤：登录宜搭平台，在宜搭官网首页右上...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

大数据的高级运用

新品推荐