做大数据的平台有哪些-做大数据的平台有哪些文档介绍内容-阿里云

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

导入概述

如果单表的数据量特别大，或者需要做为全局数据字典来精确去重可以考虑使用 Spark Load。实时数据导入：日志数据和业务数据库的Binlog同步到Kafka后，优先推荐通过 Routine Load 导入StarRocks。如果导入过程中有复杂的多表关联和ETL预处理...

Hadoop集群迁移至DataLake集群

背景信息 E-MapReduce（简称EMR）新版控制台是EMR发布的下一代云原生开源大数据平台，为用户提供全新平台体验、全新开发平台、全新资源形态和全新分析场景。新版控制台的功能特点，详情请参见 EMR新版控制台上线公告。EMR on ECS作为EMR...

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合，海量离线数据分析可以应用于多种商业系统环境，例如，电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。离线大数据分析概述主流的三大分布式计算框架...

应用场景

本文为您介绍数据资源平台的应用场景。构建数据中台，行业领域模型快速沉淀场景：快速构建数据仓库，有效治理数据质量，实现政企客户各部门数据的业务协同和共享。痛点：以政务服务为例，政务服务部门众多，业务系统复杂、流程长，数据...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

离线同步数据质量排查

如果写出数据和目标存储已有数据发生数据约束（主键冲突、唯一键约束、外键约束等），数据库则使用来源数据update更新目标表已有数据行，在目标表存在多个数据约束的情况下，数据替换可能会失败并产生脏数据如果写出数据和目标存储已有...

什么是EMR on ECS

与自建Hadoop集群对比开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项阿里云EMR 自建Hadoop集群成本支持按量和包年包月付费方式，集群资源支持灵活调整，数据分层存储，资源使用率高。无额外软件License费用。需...

新建云计算资源

支持新建多种类型的数据源，为使用数据资源平台 做数据支撑。本文介绍如何新建云计算资源。前提条件已创建工作组，具体操作，请参见新建工作组。背景信息当前支持的云计算资源类型有RDS MySQL、AnalyticDB MySQL、AnalyticDB MySQL 2.0...

数据导入概览

使用DataWorks数据集成同步数据到GDB DataWorks 是阿里云上的一站式大数据智能云研发平台，其中数据集成服务支持导出数据到GDB，您也可以使用平台完成数据计算、筛选、转换等处理再同步到GDB。DataWorks的GDB数据源底层由GdbWriter插件提供...

分析平台概述

Dataphin提供了简单、快速、高效的数据分析平台，您可通过数据分析对数据仓库中的数据进行洞察、在线查询及可视化分析，提取出有效信息而形成结论，辅助决策。前提条件需开通智能研发版。分析平台简介在分析平台上，您可选择您有权限的...

分析平台概述

Dataphin提供了简单、快速、高效的数据分析平台，您可通过数据分析对数据仓库中的数据进行洞察、在线查询及可视化分析，提取出有效信息而形成结论，辅助决策。前提条件需开通智能研发版。分析平台简介在分析平台上，您可选择您有权限的...

概述

系统设置为用户提供了工作组、云计算资源和成员的创建及管理等能力，为数据资源平台的运行和使用提供了必要的基础保障。工作组管理工作组管理：支持工作组的创建、管理，以达到各工作组之间空间隔离的效果，并提供编辑、禁用、复制、删除...

DataWorks On CDP/CDH使用说明

CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建为单独的用户数据使用。您可在DataWorks中注册CDH及CDP集群，基于业务需求进行相关任务开发、调度、数据地图（元数据管理）和数据质量等一系列的数据开发和...

系统设置

系统设置为用户提供了工作组、云计算资源、成员的创建及管理等能力，为数据资源平台的运行、使用提供了必要的基础保障。工作组管理工作组管理：支持工作组的创建、管理，以达到各工作组之间空间隔离的效果，并提供编辑、禁用、复制、删除...

数据集成：全领域数据汇聚

DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。功能概述 DataWorks数据集成支持离线同步、实时同步，以及离线和实时一体化的全增量同步...

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

数据归档概述

当线上数据库中的历史数据（访问率很低的数据）越来越多，占用的存储越来越大，以至于会影响数据库的查询性能与业务运转，此时您可以使用数据管理DMS 的数据归档功能，周期性地将指定表的数据归档至其他数据库或存储服务中。同时，该功能...

管理控制台功能概览

功能模块您可通过控制台了解DataWorks各模块的功能及使用流程，并快速进入指定工作空间的数据集成、智能数据建模、数据开发、运维中心、数据质量、数据分析、数据地图、安全中心、数据治理中心、数据服务、管理中心模块执行相关操作。...

简介

典型案例&架构航海船舶大数据平台 场景：全球AIS船舶实时位置数据，每天上亿条轨迹写入，要求轨迹时空/时序查询秒级响应，具体包括：监管区域实时地理围栏判断。轨迹区域回放（指定区域+指定时间段）。轨迹回放（指定时间段查询）。架构...

购买指引

场景1：新用户推荐配置推荐配置推荐原因功能：推荐购买专业版，专业版满足企业专业的数据仓库构建需求，覆盖数据开发、任务运维、数据地图、数据质量等绝大部分功能。资源：推荐购买独享数据集成资源组，以支持更好的同步体验，支持离...

概述

使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据，可以使用Impala访问和查询，而...

确认表血缘

任务配置上下游节点依赖前，您需先确认当前节点的表血缘关系（例如，表数据间的血缘关系、表产出的分区数据），基于血缘关系配置节点的调度依赖。本文为您介绍如何确认表血缘，以及未基于表血缘配置节点依赖的影响。背景信息确认表血缘，...

ClickHouse概述

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

ETL工作流快速体验

案例提供的数据仅用于阿里云大数据开发治理平台DataWorks数据应用体验。仅空间管理员角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色，请参见空间级模块权限管控。导入ETL工作流模板您可以将DataWorks ETL工作流模板...

DataWorks模块使用说明

使用流程与主要子模块 DataWorks为您提供从端到端的一站式数据开发治理平台，数据处理流程主要包括以下几个阶段。各个阶段DataWorks的主要子模块如下。数据集成子模块：数据集成功能说明：数据集成是稳定高效、弹性伸缩的数据同步平台，...

DB2数据源

否无 fetchSize 该配置项定义了插件和数据库服务器端每次批量数据获取条数，该值决定了数据同步系统和服务器端的网络交互次数，能够较大的提升数据抽取性能。说明 fetchSize 值过大（>2048）可能造成数据同步进程OOM。否 1024 Writer脚本...

独享数据服务资源组

因此，如果您的实际业务场景与上述数据有较大出入，请加入 DataWorks钉钉群咨询技术支持，我们会根据您的实际业务场景推荐合适的资源组规格。计费与相关操作如您需要专业的售前购买指导，请前往查看 DataWorks购买指引。可以使用钉钉扫描...

JindoFS实战演示

云上计算云下数据：HDFS缓存加速云上计算云下数据：HDFS缓存加速 2021-06-29 随着云计算越来越成熟，带来弹性扩容、运维方便、节省成本等优点，越来越多企业开始将大数据平台搬到云上。云下的HDFS集群存在历史数据，其中可能包含敏感数据...

EMR-3.22.x版本说明

包括多Namespace支持、本地数据块以大文件形式存储、多模存储支持和外部客户端支持等多项重大更新。解决机器重启过程中Bigboot monitor状态不正确问题。增加Kudu组件的服务spec。增加各个服务spec的正确性检验。Hadoop HDFS HDFS ...

数据可视化展现

在数据分析模块，DataWorks为您提供数据可视化工具，能够将加工后的数据以图表形式直观展示，便于您快速提取关键信息。本文将以场景示例形式，为您介绍如何用DataWorks完成用户画像数据的可视化展示。前提条件在开始示例前，请确认您已经...

PostgreSQL数据源

否无 fetchSize 该配置项定义了插件和数据库服务器端每次批量数据获取条数，该值决定了数据集成和服务器端的网络交互次数，能够较大的提升数据抽取性能。说明 fetchSize 值过大（>2048）可能造成数据同步进程OOM。否 512 PostgreSQL ...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

准备环境

前提条件 大数据开发治理平台DataWorks：购买DataWorks，详情请参见购买指引。说明因本示例提供的数据资源都在华东2（上海），建议购买时选择地域为华东2（上海）。对象存储OSS：已开通OSS服务，具体步骤，请参见开通OSS服务。步骤一：...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。...

上海新能源汽车车辆基础数据

成立以来，数据中心在多源数据融合应用方面做了许多探索，陆续建成了“上海市新能源汽车大数据平台”、“上海市动力电池溯源管理平台”、“上海市加氢站与氢燃料电池汽车公共数据平台”、“GEF6上海能源管理中心平台”，有效发挥了数据在...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

授权系统API

在OpenAPI场景，当外部应用需要对接数据资源平台组件的OpenAPI时，需要联系租户管理员，对外部应用调用数据资源平台组件的OpenAPI进行授权。本文介绍如何授权API。前提条件已完成应用创建，具体操作，请参见新建应用。如需进行API...

做大数据的平台有哪些

新品推荐