构建大数据平台系统-构建大数据平台系统文档介绍内容-阿里云

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

通过阿里云Milvus与PAI搭建高效的检索...生成（RAG）系统

其中，检索部分采用了高效的向量检索引擎和向量数据库技术，例如基于开源库Faiss、Annoy以及HNSW算法优化构建的Milvus系统，极大地提升了对大规模数据进行快速检索和精确分析的能力。这样的设计使得RAG能够在必要时即时调用相关领域或最新...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

通过阿里云Milvus和通义千问快速构建基于专属知识库的...

本文展示了如何使用阿里云向量检索Milvus和灵积（Dashscope）提供的通用千问大模型能力，快速构建一个基于专属知识库的问答系统。在示例中，我们通过接入灵积的通义千问API及文本嵌入（Embedding）API来实现LLM大模型的相关功能。前提条件 ...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

基于MaxCompute进行大数据BI分析

通过MaxCompute、AnalyticDB MySQL强大的数据加工和分析能力，降低大数据平台建设的门槛，轻松解决了海量数据的计算问题。同时有效降低企业成本，并保障数据安全。与第三方开源生态无缝对接，在不侵入用户应用的情况下，传输日志至日志服务...

MaxCompute湖仓一体概述

MaxCompute提供湖仓一体方案，该方案可以打破数据湖与数据仓库割裂的体系，并将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合，助力构建数据湖和数据仓库相融合的数据管理平台。本文介绍如何通过MaxCompute和异构数据...

审批中心概述

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

Flink VVP+DLF数据入湖与分析实践

背景信息阿里云实时计算Flink版是一套基于Apache Flink构建的实时大数据分析平台，支持多种数据源和结果表类型。Flink任务可以利用数据湖统一存储的优势，使用Hudi结果表或Iceberg结果表，将作业的结果输出到数据湖中，实现数据湖分析。在...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

图层配置项说明

数据图元三维图标图层数据面板示例配置空间构建数据源如果您在创建三维城市项目时，使用了空间构建数据 模式，并且项目内包含各种适用业务展示图层效果的空间数据内容。在场景编辑器内配置图层的数据面板时，您还可以使用空间构建数据...

如何对JSON类型进行高效分析

本文介绍了PolarDB IMCI为应对海量结构化与半结构化数据分析场景，通过整合列式JSON、虚拟列、秒级加减列、表列数扩展及列存索引等系列功能而构建出的扩展流计算方案，以及该方案的应用案例。背景随着应用场景多样化与快速迭代，业务系统...

图层配置项说明

配置空间构建数据源如果您在创建三维城市项目时，使用了空间构建数据 模式，并且项目内包含各种适用业务展示图层效果的空间数据内容。在场景编辑器内配置图层的数据面板时，您还可以使用空间构建数据源的内容。以区域柱状图对应数据...

图层配置项说明

数据图元三维图标图层数据面板示例配置空间构建数据源如果您在创建三维城市项目时，使用了空间构建数据 模式，并且项目内包含各种适用业务展示图层效果的空间数据内容。在场景编辑器内配置图层的数据面板时，您还可以使用空间构建数据...

图层配置项说明

数据图元三维图标图层数据面板示例配置空间构建数据源如果您在创建三维城市项目时，使用了空间构建数据 模式，并且项目内包含各种适用业务展示图层效果的空间数据内容。在场景编辑器内配置图层的数据面板时，您还可以使用空间构建数据...

数据服务简介

DataWorks离线数据集成物联网平台数据服务中的平台系统表、产品属性时序表、产品事件表和自定义存储表数据，可以集成到阿里云大数据开发治理平台（DataWorks）中构建数据仓库，以提升数据应用效率。实时数据集成（Flink版）物联网平台数据...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

Kyuubi概述

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

公交出行：启迪公交

解决方案启迪公交采用 PolarDB-X 分布式数据库方案构建了全部业务系统，既支持海量大数据的处理能力，又支持高并发、高可用和很强的弹性伸缩能力。票务管理工作台通过用户检录数据，实时同步到阿里云AnalyticDB分析型数据库，分析出实时...

保险行业解决方案与案例

该公司依托云计算技术和互联网技术构建了分层清晰的数字化平台，推动技术架构和技术标准的统一，实现系统间整合和内通外联，同时，基于大后台+小前端移动互联布局，联合信创合作方，攻克多项技术难题，在业内率先建设信创混合云，其中数据...

产品简介

大数据搬站迁云方案咨询为客户提供原大数据系统上云迁移方案咨询服务，包括云上大数据搬站架构规划、设计迁云方案服务。大数据专家高阶培训提供针对大数据建设、管理、治理相关的高阶能力培训，涵盖离线/实时数仓体系建设管理、数仓建模...

操作流程

通过云计算资源将已存在数据库中的数据表，通过云计算资源扫描方式，导入数据资源平台系统，实现逆向创建逻辑表。具体操作，请参见通过云计算资源导入逻辑表。通过Excel导入将Excel表里的逻辑表表名、字段信息、所属层级、关联信息...

异常指标监控

背景信息用户系统中的异常数据（例如运维系统的CPU消耗突然增高或某平台突然产生大量不良信息）属于平台异常指标。如果能实时高效地监控平台指标，并对各种异常指标进行预防和实时预警，将大幅度提升平台的智能化安全防卫能力。解决方案 ...

功能特性

离线数据集成（DataWorks+MaxCompute）可以将数据服务中的平台系统表、产品属性时序表、产品事件表和自定义存储表数据，集成到阿里云大数据开发治理平台（DataWorks）中构建数据仓库，以提升数据应用效率。实时数据集成（Flink版）可以将...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

应用场景

大数据场景云数据库HBase支持海量全量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势如下：低成本：高压缩比，数据冷热分离，...

应用场景

EMR Serverless Spark不仅集成了任务调度系统，使得您能够便捷地构建与管理数据ETL流程，轻松实现自动化及周期性数据处理，而且还内置了先进的版本控制机制。这一机制确保了开发与生产环境的彻底隔离，确保符合企业级用户在研发和发布流程...

应用场景

大数据场景：海量数据存储与分析 Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势低成本：高压缩比，数据冷热分离...

发展历程

MaxCompute通过全国首批大数据平台稳定性认证，被证明为韧性型系统。深度参与和推动全球大数据领域标准化建设 MaxCompute代表阿里巴巴计算平台，成为国际TPC（Transaction Processing Performance Council）委员会大数据评测标准BigBench的...

典型应用

用户画像分析随着数据时代的发展，各行各业数据平台的体量越来越大，用户个性化运营的诉求也越来越突出，用户标签系统，做为个性化千人千面运营的基础服务，应运而生。如今，几乎所有行业（如互联网、游戏、教育等）都有实时精准营销的...

面临的业务挑战

这些不同来源、不同格式的数据，各自又有不同的访问和分析方式，而大量传统企业基于关系数据库构建自己的业务系统，已经非常熟悉按SQL的方式去使用数据，这无疑增加了企业存储和使用数据的成本。分析不实时企业运营的形式越来越多样化，...

客户案例

基于飞天大数据平台产品DataWorks+MaxCompute大大提高了数据业务的开发效率，构建大润发的数据中台体系。新金融行业：某互联网金融公司湖仓一体案例客户架构如下。客户简介公司的第一代数据湖是基于Hadoop+OSS搭建的，同时引入的数据中台...

产品概述

系统化构建数据目录：基于规范化建模、高效自动化的元数据抽取，以标准的技术框架系统地构建规范的业务化数据目录，形成数据资产地图，方便业务查找及应用。高效的数据检索：基于元数据及业务数据构建数据图谱，实现快速、智能检索数据表及...

计算设置概述

亚信DP5.3 Hadoop 基于开源生态，依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB Transwarp ArgoDB是星环科技的分布式分析性数据库。说明星环ArgoDB不支持智能研发版。设置Dataphin实例的计算引擎为TDH或ArgoDB 星环...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

快速入门

作为学院派关系型数据库管理系统的鼻祖，它的优点主要集中在对SQL规范的完整实现以及丰富多样的数据类型支持，包括JSON数据、IP数据和几何数据等，而大部分商业数据库都不支持这些数据类型。除了完美支持事务、子查询、多版本控制（MVCC）...

构建大数据平台系统

新品推荐