大数据在线体验平台-大数据在线体验平台文档介绍内容-阿里云

产品优势

AnalyticDB MySQL版提供融合数据库、大数据技术于一体的云原生企业级数据仓库服务，高度兼容MySQL，支持毫秒级更新，亚秒级查询。无论是数据湖中的非结构化或半结构化数据，还是数据库中的结构化数据，您都可使用 AnalyticDB MySQL 构建...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

功能简介

数据资产构建数据同步可实现离线、实时多源异构数据的便捷同步，系统提供完善的数据接入配置、任务运行监控等功能，有效保障数据接入的稳定性和可控性，满足各类平台、数据源及应用系统间的数据汇聚需求。数据查询可探查 AnalyticDB ...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

采集数据

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据，并且只支持在数据集成模块读取数据。章节目标将MySQL存储的用户基本信息及OSS存储的网站访问日志数据，通过数据集成服务同步至...

采集数据

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据，并且只支持在数据集成模块读取数据。章节目标将MySQL存储的用户基本信息及OSS存储的网站访问日志，通过数据集成服务将数据同步至...

DataWorks V2.0

数据质量以数据集（DataSet）为监控对象，目前支持MaxCompute数据表和DataHub实时数据流的监控。当离线MaxCompute数据发生变化时，数据质量会对数据进行校验并阻塞生产链路，避免问题数据污染扩散。同时，数据质量提供了历史校验结果的管理...

Transaction Table2.0概述

针对这些问题近几年大数据开源生态也推出了各种解决方案，最流行的就是Spark/Flink/Presto开源数据处理引擎，深度集成开源数据湖Hudi、Delta Lake和Iceberg三剑客，践行统一的计算引擎和统一的数据存储思想来综合提供解决方案，解决Lamdba...

公告

2024年04月16日-Dataphin新版本发布 Dataphin于2024年04月16日发布V3.14版本，本次...数据集成升级了原有数据同步的能力，包括丰富了数据源种类、增加了数据清洗功能、批量同步和逻辑表同步等，为您提供更丰富强大、简单易用的数据同步平台。

文档更新动态（2022年之前）

通用功能查看行为数据 2020年04月时间特性名称类别描述使用范围产品文档 2020-04-09 数据源功能拓展支持创建离线数据源和实时数据源，通过数据源将业务数据引入Dataphin平台。通用功能数据源 2020-04-09 计算设置功能拓展支持...

新功能发布记录

2021-12-21 模型查看器 v6.0 DataV发布全新V6.0版本发布五大新功能适用用户：数据集及BI映射：企业版及以上用户区块管理：专业版及以上用户设计资产：企业版及以上用户空间构建平台：需线下咨询购买数据映射系统；BI分析功能帮助用户...

文档更新动态（2023年）

更新说明创建MySQL数据源创建PolarDB-X数据源创建AnalyticDB for MySQL 2.0数据源创建AnalyticDB for PostgreSQL数据源创建达梦（DM）数据源创建TiDB数据源创建Kafka数据源离线集成配置优化新增Apache Doris数据源的离线集成。...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析教育行业的直播质量分析物流行业的运单分析金融行业...

MongoDB 5.0新特性概览

每个发布版本都需在20多个MongoDB支持的平台上进行验证，验证工作量大，降低了MongoDB新功能的交付速度，所以从MongoDB 5.0开始，MongoDB发布的版本将分为Major Release（大版本）和Rapid Releases（快速发布版本），其中Rapid Releases...

功能更新动态（2023年）

创建MySQL数据源创建PolarDB-X数据源创建AnalyticDB for MySQL 2.0数据源创建AnalyticDB for PostgreSQL数据源创建达梦（DM）数据源创建TiDB数据源创建Kafka数据源离线集成新增Apache Doris数据源的离线集成。整库迁移任务支持...

离线集成概述

解决企业复杂大数据批处理难题，支持企业精细化运营、数据营销、智能推荐等大数据业务场景。离线集成功能底层基于Spark开发，支持提升Hadoop平台运行速度的应用场景。说明如果您在使用该功能的过程中有任何疑问或问题，请使用钉钉搜索钉钉...

应用场景

物联网平台支持海量设备稳定连接、实时在线，支持云端调用API低延时下发指令，提升各场景中用户体验。本文介绍物联网平台的典型应用场景。共享充电宝充电宝设备接入物联网平台后，可上报充电宝电量和借用状态等信息到物联网平台云端。充电...

采集数据

本文为您介绍如何新建OSS和RDS数据源来访问本教程所提供的用户信息与网站日志数据，配置数据同步链路至私有OSS数据源，并通过EMR Hive节点建表去查询同步后的数据，完成数据同步的操作过程。前提条件开始本文的操作前，请准备好需要使用的...

文档更新动态（2022年）

新功能安全设置 2022年05月08日新增支持ClickHouse数据源新增支持ClickHouse数据源，您可以将ClickHouse数据源业务数据引入至Dataphin或将Dataphin数据导出至ClickHouse。新功能创建ClickHouse数据源 2022年05月08日脚本实例和逻辑表...

功能发布记录（2022年）

英国（伦敦），美国（硅谷），美国（弗吉尼亚），阿联酋（迪拜）所有DataWorks用户数据集成概述 DataWorks支持EMR新版数据湖DataLake DataWorks支持基于EMR计算引擎新版数据湖DataLake，实现基于EMR引擎的数据集成、数据建模、数据开发...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

捷顺

客户简介捷顺科技是一家智慧停车、智慧社区综合服务提供商，集研、产、销于一体，公司的产品线涵盖各类软硬件产品，包括捷停车及捷生活APP、停车场智能硬件、智能门禁、通道闸、城市级智能一卡通系统、停车场智能管理平台、智慧商业O2O...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户...，赋能技术团队具备大数据平台建设、架构设计、AI算法建模以及运维保障能力...

Kyuubi概述

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

产品架构

EMR自研能力为让开源大数据组件和服务更好的运行在阿里云技术设施上，EMR自研了如下组件：数据应用平台，提供交互式开发、作业提交、作业调试和工作流一站式数据开发体验，详情请参见 EMR Studio概述。Shuffle Service是EMR在优化计算引擎...

数据服务简介

DataWorks离线数据集成物联网平台数据服务中的平台系统表、产品属性时序表、产品事件表和自定义存储表数据，可以集成到阿里云大数据开发治理平台（DataWorks）中构建数据仓库，以提升数据应用效率。实时数据集成（Flink版）物联网平台数据...

基于MaxCompute进行大数据BI分析

通过MaxCompute、AnalyticDB MySQL强大的数据加工和分析能力，降低大数据平台建设的门槛，轻松解决了海量数据的计算问题。同时有效降低企业成本，并保障数据安全。与第三方开源生态无缝对接，在不侵入用户应用的情况下，传输日志至日志服务...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。...

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

E-MapReduce本地盘实例大规模数据集测试

大数据基准测试用于公平、客观评测不同大数据产品/平台的功能和性能，对用户选择合适的大数据平台产品具有重要的参考价值，TPC-DS逐渐成为了业界公认的大数据系统测试基准。本文以阿里云E-MapReduce+D1本地盘方案模拟TPC-DS测试的演示方案...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

通过DMS连接StarRocks实例

类别配置项说明数据来源-选择阿里云>大数据>StarRocks。基本信息数据库类型 StarRocks。实例地区选择在EMR控制台创建的StarRocks实例所在的地域。其他主账号如果您选择跨阿里云账号实例，则会出现该配置项。选择数据库实例所属的...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

购买指引

其他产品计费：大数据引擎的计算与存储等费用不包含在DataWorks的费用中，例如，您还开通使用了 MaxCompute、Hologres、E-MapReduce 等计算引擎或存储产品，这类产品的费用需参考对应产品的计费逻辑。进入 DataWorks售卖页即可购买所需...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有...说明目前使用DDM进行数据建模可以进行逻辑建模和物理建模，但物理建模仅支持MaxCompute和Hive两种大数据引擎，不支持自定义数据源类型。

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

大数据在线体验平台

新品推荐