大数据平台技术对比-大数据平台技术对比文档介绍内容-阿里云

Spark概述

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

数据治理

数据地图为什么数据地图数据总览页存储量和存储趋势图相差较大？数据地图血缘展示延迟问题数据地图新建表搜不到当前表业务逻辑变更如何通知下游？哪些类型的Hive表支持在数据地图中预览？数据保护伞数据保护伞为什么有时候查询脱敏有...

创建及管理外部表

背景信息 Hologres与大数据生态无缝打通，可以直接加速查询外部表数据，也可以将外部表的数据导入至Hologres中处理。Hologres当前仅支持对MaxCompute表进行操作。使用限制 Hologres支持跨工作空间读取外部表数据，您当前使用的账号需要拥有...

查看质量评估报告

操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击质量评估。在左侧导航栏，选择质量评估报告。在数据质量监控报告页面，查看综合质量得分、多维度质量评分对比...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中，在大数据量的情况下将数据存储在OSS上会大大降低使用的成本，EMR集群主要用来作为计算资源，在计算完成之后可以随时释放，数据在OSS上，同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

DataWorks On MaxCompute使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

问题汇总

补数据补数据功能说明为什么小时分钟任务补数据选择了并行但实际不生效？为什么补数据选择业务时间后不运行，实例显示黄色，实例状态显示等待时间？为什么补数据报错调起的节点运行时间不在所选业务时间范围内？为什么有节点选择了补数据...

配置MaxCompute输出

大数据计算服务MaxCompute（原名ODPS）为您提供完善的数据导入方案，能够快速解决海量数据的计算问题。前提条件配置MaxCompute输出节点前，您需要先配置好相应的输入或转换数据源，详情请参见实时同步能力说明。背景信息写入数据不支持...

购买指引

场景1：新用户推荐配置推荐配置推荐原因功能：推荐购买专业版，专业版满足企业专业的数据仓库构建需求，覆盖数据开发、任务运维、数据地图、数据质量等绝大部分功能。资源：推荐购买独享数据集成资源组，以支持更好的同步体验，支持离...

上传数据

添加完成数据文件后，在跳转后的添加数据对话框，选择数据的分组、输入数据集的名称、选择数据的类型和数据的服务地址，单击对话框右下角的创建数据集即可完成三维瓦片数据的添加。说明当数据量较大时解析时间会比较长，您可以先关闭弹...

上传数据

添加完成数据文件后，在跳转后的添加数据对话框，选择数据的分组、输入数据集的名称、选择数据的类型和数据的服务地址，单击对话框右下角的创建数据集即可完成三维瓦片数据的添加。说明当数据量较大时解析时间会比较长，您可以先关闭弹...

查看元数据

元数据管理功能主要为您展示当前实例的所有数据库，数据表，分区及各种任务等信息。本文为您介绍如何通过EMR StarRocks Manager查看元数据。前提条件已创建StarRocks实例，详情请参见创建实例。使用限制普通用户无法查看数据库大小、...

面临的业务挑战

数据来源上包含数据库数据、日志数据、对象数据以及已有数仓上的存量数据等。这些不同来源、不同格式的数据，各自又有不同的访问和分析方式，而大量传统企业基于关系数据库构建自己的业务系统，已经非常熟悉按SQL的方式去使用数据，这无疑...

Vertica数据源

Vertica是一款基于列存储的MPP架构的数据库，Vertica数据源为您提供读取和写入Vertica双向通道的功能，本文为您介绍DataWorks的Vertica数据同步的能力支持情况。支持的版本 Vertica Reader通过Vertica数据库驱动访问Vertica，您需要确认...

GBase8a数据源

GBase8a数据源为您提供读取和写入GBase8a双向通道的功能，本文为您介绍DataWorks的GBase8a数据同步的能力支持情况。使用限制目前Gbase8a Reader和Gbase8a Writer仅支持使用新增和使用独享数据集成资源组。insert into.：当主键或唯一性...

离线同步日志分析

附录：关系型数据库切分键配置推荐 splitPk 用户使用表主键，因为表主键通常情况下比较均匀，因此切分出来的分片也不容易出现数据热点。splitPk 仅支持切分整型数据，不支持切分字符串、浮点和日期等其他类型数据。如果配置 splitPk 切分...

DM（达梦）数据源

DM（达梦）数据源作为数据中枢，为您提供读取和写入DM数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DM数据同步的能力支持情况。使用限制离线同步支持读取视图表。DM Reader和DM Writer仅支持使用独享数据...

创建实例

通过创建StarRocks实例，您可以快速获取一个托管的且高性能的环境，无需自行搭建和维护基础设施，轻松进行大规模数据分析和查询。操作步骤进入EMR Serverless StarRocks实例列表页面。登录 E-MapReduce控制台。在左侧导航栏，选择 EMR ...

Amazon Redshift数据源

Amazon Redshift数据源为您提供读取和写入Amazon Redshift的双向通道，方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍Amazon Redshift数据同步能力支持情况。支持的Amazon Redshift版本 Amazon Redshift使用的驱动...

SelectDB数据源

DataWorks数据集成支持使用SelectDB Writer导入表数据至SelectDB。本文为您介绍DataWorks的SelectDB数据同步能力支持情况。支持的SelectDB版本 SelectDB Writer使用的驱动版本是MySQL Driver5.1.47，驱动能力详情请参见 MySQL Connectors。...

基于AnalyticDB构建企业数仓

独享数据集成资源组选择任务运行的机器，如果任务数比较多，使用默认资源组出现等待资源的情况，建议购买独享数据集成资源或添加自定义资源组，详情请参见新增和使用独享数据集成资源组和新增和使用自定义数据集成资源组。单击右侧的 ...

数据服务概述

数据服务作为统一的数据服务出口，实现了数据的统一市场化管理，有效地降低数据开放门槛的同时，保障了数据开放的安全。前提条件已购买数据服务增值服务，开通Dataphin 常见数据应用问题一般从需求提出到需求交付分为：需求提出-需求...

ApsaraDB For OceanBase数据源

ApsaraDB for OceanBase数据源提供读取和写入ApsaraDB for OceanBase数据的双向功能，您可以使用ApsaraDB for OceanBase数据源配置同步任务同步数据。本文为您介绍DataWorks的ApsaraDB For Oceanbase数据同步能力支持情况。支持的版本离线...

PolarDB-X 2.0数据源

PolarDB-X 2.0数据源为您提供读取和写入PolarDB-X 2.0的双向通道，本文为您介绍DataWorks的PolarDB-X 2.0数据同步的能力支持情况。使用限制 PolarDB-X 2.0数据源仅支持使用独享数据集成资源组。支持的版本离线读写：支持PolarDB-X 2.0，...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

常见问题

查看当前Reduce Task中Reduce Input bytes和Reduce shuffle bytes的信息，如果比其他的Task处理的数据量大很多，则说明出现了倾斜问题。如何预估Hive作业并发量的上限值？Hive作业并发量与HiveServer2的内存以及master实例个数有关系。您...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

DataHub数据源

DataHub数据源作为数据中枢，为您提供读取和写入DataHub数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DataHub数据同步的能力支持情况。支持的版本 DataHub Reader通过DataHub的Java SDK读取DataHub中的数据...

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合，海量离线数据分析可以应用于多种商业系统环境，例如，电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。离线大数据分析概述主流的三大分布式计算框架...

集成与开发概览

数据同步功能帮助您实现数据源之间的数据实时同步，适用于数据异地多活、数据异地灾备、本地数据灾备、跨境数据同步、云BI及实时数据仓库等多种业务场景。离线集成。更多信息，请参见离线集成概述。离线集成是一种低代码的数据开发工具，...

上海新能源汽车车辆基础数据

2019年开始上海市新能源汽车大数据平台从自建Hadoop集群迁移至阿里云Lindorm+DLA Spark产品，有效解决了我们平台存储和计算的横向动态扩容瓶颈，同时借助其产品中间件LTS实现了我们平台数据的冷热分离，有效降低了数据存储成本，依托于阿里...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

技术架构选型

在数据模型设计之前，您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。...

概述

Flink（VVR）完全兼容开源Flink，相关内容请参见如下文档：DataStream API Table API&SQL Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink主要用于以下...

应用场景

建立数据平台 得益于其开放式架构设计，EMR Serverless Spark极大地简化并提升了在数据湖环境中对结构化和非结构化数据进行高效分析处理的能力。EMR Serverless Spark不仅集成了任务调度系统，使得您能够便捷地构建与管理数据ETL流程，轻松...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

概述

您可以将数据库中的表或单条SQL查询结果作为数据集，在仪表盘或大屏中对数据集中的数据以表格、交叉表、折线图、柱条形图、饼图、双轴图等图形或组件展现出来，并对这些图形或组件进行自由组合、布局，以某种分析思路对业务进行直观呈现。...

大数据平台技术对比

新品推荐