大数据的技术架构-大数据的技术架构文档介绍内容-阿里云

产品简介

服务内容服务大类服务类型服务内容大数据专家咨询服务 大数据技术架构方案咨询为客户提供构建和优化大数据体系的技术架构方案咨询服务，覆盖离线/实时数仓体系建设管理、数仓建模管理，数据开发管理，数据安全管理、数据质量管理、...

数据分析整体趋势

随着Google等互联网企业崛起，以Hadoop为代表的基于传统x86服务器集群的大数据技术迅速发展，同时开源分布式数据库如Greenplum等也成为相应替代方案，为广大中小企业，尤其是互联网行业大大降低了数据分析的技术和成本门槛，还有分布式技术...

常见问题

如何理解开源与云原生的大数据技术与产品？MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute的项目发挥什么作用？如何获取MaxCompute中的Accesskey_ID和AccessKey_Secret？现有账号的AccessKey被禁用，创建一个新的...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

应用场景

数据湖分析 Databricks数据洞察支持计算存储分离的数据湖架构。使用阿里云对象存储OSS作为云上存储，DDI集群提供灵活的计算资源，OSS上的数据可以被多个DDI集群共享，减少数据冗余。同时，DataInsight Notebook支持多用户同时协同工作，您...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

JindoData概述

JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、JindoFSx存储加速系统（原JindoFS Cache模式），JindoSDK大数据万能SDK和全面兼容的生态工具（JindoFuse、JindoDistCp）以及插件支持。JindoData...

数据模型概述

数据模型（Data Model）是数据特征的抽象，它从抽象层次上描述了系统的静态特征、动态行为和约束条件，为数据库系统的信息表示与操作提供一个抽象的框架。DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型...

应用场景

数据库网关与数据管理DMS搭配可为您提供高稳定性、低成本、统一的非阿里云数据库（例如本地IDC自建、其他云厂商的云数据库、其他云厂商云服务器上自建的数据库）的通用管理方案，实现多云统一的数据库管理服务，架构图如下所示。...

应用场景

数据库网关与数据管理DMS搭配可为您提供高稳定性、低成本、统一的非阿里云数据库（例如本地IDC自建、其他云厂商的云数据库、其他云厂商云服务器上自建的数据库）的通用管理方案，实现多云统一的数据库管理服务，架构图如下所示。...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

应用场景

数据审计智能解析数据库及大数据的通信流量，细粒度审计数据访问行为，通过对数据源全量行为的审计溯源、危险攻击的实时告警、风险语句的智能预警，为您最敏感的数据库资产做好最安全的监控保障。个人信息合规可精准区分和保护个人数据，...

应用场景

大数据场景云数据库HBase支持海量全量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势如下：低成本：高压缩比，数据冷热分离，...

基于Delta lake的一站式数据湖构建与分析实战

企业级数据湖架构数据湖存储与格式数据湖存储主要以云上对象存储作为主要介质，其具有低成本、高稳定性、高可扩展性等优点。数据湖上我们可以采用支持ACID的数据湖存储格式，如Delta Lake、Hudi、Iceberg。这些数据湖格式有自己的数据...

基本介绍

背景信息云数据库HBase增强版是由云原生多模数据库Lindorm宽表引擎提供的、完全兼容HBase的云上托管数据库，从2011年开始云数据库HBase增强版正式承载阿里内部业务的海量数据实时存储需求，支撑服务了淘宝、支付宝、菜鸟、优酷、高德等...

应用场景

大数据场景：海量数据存储与分析 Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势低成本：高压缩比，数据冷热分离...

外部表概述

随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力，正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

Tair命令概览

云原生内存数据库Tair 存在多个版本、系列和架构，各种类型的实例对于Redis命令的支持度有所不同。根据本章节的导航信息，您可以快速找到Tair各版本支持的命令和限制使用的命令。命令支持概览兼容Redis社区版命令云原生内存数据库Tair ...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

数据集成概述

通过离线单条管道构建同步任务离线的数据管道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据输入组件、数据输出组件及流程和转换组件，并基于此框架设计一套简化版的中间数据传输格式，从而实现数据源之间数据传输。数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

备份大小

与数据大小的关系备份大小可能比数据量大，也可能比数据量小。云盘实例采用快照备份。快照备份的大小可能远大于数据的大小。云盘实例备份免费额度为实例存储容量的200%，本地盘实例备份免费额度为实例存储容量的50%。说明计算快照备份...

配置数据校验

在数据库性能较差、规格较低或业务量较大的情况下，可能会加重数据库压力，甚至导致数据库服务不可用。增量校验任务仅支持校验增量同步或增量迁移任务中变更的数据，不支持校验手动在目标库中变更的数据。采用按抽样比例进行HASH校验方式...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

什么是数据传输服务DTS

支持关系型数据库（RDBMS）、非关系型的数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，助您构建安全、可扩展、高可用的数据架构。DTS视频简介为什么选择DTS 相对于传统数据迁移...

OSS数据安全防护最佳实践

DSC 在您完成数据源识别授权后，从您存储在OSS的海量数据中快速发现和定位敏感数据，对敏感数据分类分级并统一展示，同时追踪敏感数据的使用情况，并根据预先定义的安全策略，对数据进行保护和审计，以便您随时了解OSS数据资产的安全状态。...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

HDFS概述

HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写，特别是读多写少的场景...

数据组织优化

本文为您介绍Transactional Table 2.0在数据组织优化服务上的架构设计。Clustering 当前痛点 Transactional Table 2.0支持分钟级近实时增量数据导入，高流量场景下可能会导致增量小文件数量膨胀，从而引发存储访问压力大、成本高，并且大量...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

跨租户发布概述

跨租户发布数据用于迁移租户间的数据，以满足不同数据的应用场景，帮助企业实现数据应用价值最大化。前提条件已购买跨租户发布增值服务并且当前租户已开通跨租户发布模块；跨租户发布过程中，若需要导出或导入标签架构、标签、质量对象，...

跨租户发布概述

跨租户发布数据用于迁移租户间的数据，以满足不同数据的应用场景，帮助企业实现数据应用价值最大化。前提条件已购买跨租户发布增值服务。更多信息，请参见购买指引。进行跨租户发布前，请确保目标环境已完成租户的计算引擎设置。更多信息...

容量规划

也有部分公司会存在更大的数据容量和数据挖掘需求，同时会引入分布型数据库，分析型数据库和大数据库分析工具等。完成数据库选型后，需要针对业务特性了解不同数据库所需要关注的指标，以常见的MySQL和Redis数据库为例，主要需要关注到业务...

创建Vertica数据源

通过创建Vertica数据源能够实现Dataphin读取Vertica的业务数据或向Vertica写入数据。本文为您介绍如何创建Vertica数据源。背景信息 Vertica是一款基于列存储架构的数据库。如果您使用的是Vertica，在对接Dataphin进行数据开发时，您需要先...

创建Vertica数据源

通过创建Vertica数据源能够实现Dataphin读取Vertica的业务数据或向Vertica写入数据。本文为您介绍如何创建Vertica数据源。背景信息 Vertica是一款基于列存储架构的数据库。如果您使用的是Vertica，在对接Dataphin进行数据开发时，您需要先...

应用场景

数据传输服务DTS（Data Transmission Service）支持数据迁移、数据订阅和数据实时同步功能，帮助您实现多种典型应用场景。不停机迁移数据库传输方式：数据迁移为了保证数据的一致性，传统的迁移过程需要您在迁移数据时停止向源数据库写入...

大数据的技术架构

新品推荐