大数据基础书籍-大数据基础书籍文档介绍内容-阿里云

应用场景

应用场景 1.实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接...大数据实时化数仓是大数据的基础，实时化的数仓能够让BI、报表、推荐（用户标签产出）等多种业务收益，大数据系统总体向实时化迈进。

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

功能简介

通用资源为用户提供了自定义函数、函数资源、数据基础库的能力，帮助用户在数据开发等过程中灵活调用各类自定义函数和基础数据。自定义函数支持对ETL函数自定义和管理，并与公共计算节点相关联，便于快速对数据进行ETL处理。函数资源支持...

功能简介

通用资源为用户提供了自定义函数、函数资源、数据基础库的能力，帮助用户在数据开发等过程中灵活调用各类自定义函数和基础数据。自定义函数支持对ETL函数自定义和管理，并与公共计算节点相关联，便于快速对数据进行ETL处理。函数资源支持...

操作流程

通过操作流程图及说明，您可以直观且全局了解自定义函数和数据基础库的操作流程。本文介绍自定义函数和数据基础库的操作流程。自定义函数流程图流程说明操作说明新建函数资源通过上传资源包的方式新建函数资源，为自定义函数中所使用...

操作流程

通过操作流程图及说明，您可以直观且全局了解自定义函数和数据基础库的操作流程。本文介绍自定义函数和数据基础库的操作流程。自定义函数流程图流程说明操作说明新建函数资源通过上传资源包的方式新建函数资源，为自定义函数中所使用...

通用资源

通用资源为用户提供了自定义函数、函数资源、数据基础库的能力，帮助用户在数据开发等过程中灵活调用各类自定义函数和基础数据。自定义函数通过自定义函数功能，用户可以自定义ETL（Extract-Transform-Load）函数并管理，自定义函数与公共...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

产品优势

数据安全中心DSC（Data Security Center）可扫描和识别海量数据，帮您实时获取数据的安全状态。本文介绍数据安全中心的产品优势。合规性使用数据安全中心产品，可以帮助企业满足等保2.0对“云计算环境下安全审计”及“个人信息保护”的...

DMS支持的数据库

关系型数据库 MySQL SQL Server PostgreSQL MariaDB OceanBase MySQL模式 OceanBase Oracle模式 OceanBase ODP Oracle DB2 达梦数据库 OpenGauss 数据仓库 ClickHouse SelectDB NoSQL数据库 Redis MongoDB 大数据 Hive 录入他云/自建数据库...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有...说明目前使用DDM进行数据建模可以进行逻辑建模和物理建模，但物理建模仅支持MaxCompute和Hive两种大数据引擎，不支持自定义数据源类型。

账单数据订阅及查询分析

DataWorks及MaxCompute：DataWorks基于MaxCompute等大数据引擎，支持您在线进行SQL分析、业务洞察、编辑和分享数据，以及将查询结果保存为可视化图表卡片，快速搭建可视化数据报告。订阅账单数据后，用户中心会将相关账单数据同步至指定...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

新建数据字典

数据字典管理支持创建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度的值域设置中引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。本文为您介绍如何...

新建数据字典

数据字典管理支持创建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度的值域设置中引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。本文为您介绍如何...

云产品集成

您可以使用 DMS 录入云数据库 OceanBase 的数据，通过 DMS 的全域数据资产管理、数据治理、数据库设计开发、数据集成、数据开发和数据消费等功能，帮助企业高效、安全地挖掘数据价值，助力企业数字化转型。什么是数据管理DMS 支持的数据库...

东软案例

如下图所示，阿里Lindorm数据库在赋能政企数字运维团队更强大的运维大数据分析能力的同时，大幅度提升了政府、企业数字系统性能和在线服务的客户数字体验，降低了低价值密度监控数据存储管理成本。图 1.阿里云Lindorm数据库驱动的IT运维...

操作流程

新建数据字典并物理化通过新建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。具体操作，请参见新建...

操作流程

新建数据字典并物理化通过新建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。具体操作，请参见新建...

数仓分层

数据引入层（ODS，Operational Data Store，又称数据基础层）：将原始数据几乎无处理地存放在数据仓库系统中，结构上与源系统基本保持一致，是数据仓库的数据准备区。这一层的主要职责是将基础数据同步、存储到MaxCompute。数据公共层（CDM...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 GreenPlum 支持支持 TDengine 不...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

配置OpenGauss输出组件

追加数据即在目标表的已有的数据基础上追加数据，且不修改历史数据。copy 用于表与文件之间的相互复制。并且在遇到冲突时会根据冲突解决策略进行冲突时报错或冲突时覆盖。输入字段根据上游的输入组件的输出字段，为您展示输入字段...

配置OpenGauss输出组件

追加数据即在目标表的已有的数据基础上追加数据，且不修改历史数据。copy 用于表与文件之间的相互复制。并且在遇到冲突时会根据冲突解决策略进行冲突时报错或冲突时覆盖。输入字段根据上游的输入组件的输出字段，为您展示输入字段...

配置TiDB输出组件

追加数据即在目标表的已有的数据基础上追加数据，且不修改历史数据。解析方案非必填项，可选择输出数据前后的语句准备。是指数据输出前和输出完成的一些特殊处理方式，比如为了满足服务的持续可用性，当前步骤写数据执行前先创建目标表...

配置TiDB输出组件

追加数据即在目标表的已有的数据基础上追加数据，且不修改历史数据。解析方案非必填项，可选择输出数据前后的语句准备。是指数据输出前和输出完成的一些特殊处理方式，比如为了满足服务的持续可用性，当前步骤写数据执行前先创建目标表...

EMR+DLF数据湖解决方案

通过EMR+DLF数据湖方案，可以为企业提供数据湖内的统一的元数据管理，统一的权限管理，支持数据湖的多种管理如数据生命周期，湖格式自动优化，存储分析等。同时支持多源数据入湖以及一站式数据探索的能力。本文为您介绍EMR+DLF数据湖方案...

大数据基础书籍

新品推荐