大数据是种能力-大数据是种能力文档介绍内容-阿里云

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

安全白皮书概述

Dataphin面向各行各业大数据建设、管理及应用诉求，一站式提供从数据接入到数据消费全链路的智能数据建设与资产治理的大数据能力，包括产品、技术和方法论等，可帮助企业一站式构建生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产...

快速入门综述

分析型数据库MySQL版（AnalyticDB MySQL版）是一种高并发低延时的PB级实时数据仓库，全面兼容MySQL协议以及SQL 2003语法标准，可以毫秒级针对万亿级数据进行即时的多维分析透视和业务探索。前提条件先注册阿里云账号。如果以按量付费方式...

基于混合负载的查询优化

混合计算引擎提供Interactive与Batch计算模式，同时提供低延迟实时分析能力与大数据的高吞吐批计算能力，分别满足交互式查询与复杂离线计算场景。Interactive模式：采用MPP计算架构，调度粒度为整个查询所有任务，计算过程中pipeline流式...

聚合支付方案

阿里云从业务扩展性、数据流动性、服务高可用三方面入手，通过多款云数据库产品为利楚扫呗制定聚合支付方案，解决利楚扫呗在业务扩展期遇到的数据存储空间不足、读写性能下降以及大数据分析空缺等问题。业务痛点武汉利楚商务服务有限公司...

验证分析型查询请求能力

将 orders 表与自身聚合，生成 20,000*20,000 行数据的笛卡尔积，开启 8 个并行执行，对比执行时间，验证云数据库 OceanBase 的实时分析能力。概念介绍 OLAP（Online Analytical Processing）是一种面向分析的、多维数据分析技术。它适用于...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

客户案例

基于金融云计算平台以及 OceanBase 的海量存储，网商银行拥有处理高并发金融交易、海量大数据和弹性扩容的能力，可以利用互联网和大数据的优势，给更多小微企业提供金融服务。唐家才网商银行 CTO“网商银行选择 OceanBase 三地五中心部署...

解决方案与客户案例

流量有效隔离异地多活本质上是提供了一种自顶向下的流量隔离能力，业务具备在数据中心级别完全隔离的能力，各个数据中心承载的流量大小可灵活调配，在最小隔离数据中心内（例如承载1%流量），业务可灵活进行风险可控的技术演进，例如基础...

解决方案与客户案例

流量有效隔离：异地多活本质上是提供了一种自顶向下的流量隔离能力，业务具备在数据中心级别完全隔离的能力，各个数据中心承载的流量大小可灵活调配，在最小隔离数据中心内（例如承载1%流量），业务可灵活进行风险可控的技术演进，例如基础...

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

文档更新动态（2022年之前）

更新说明错误码 2021年10月11日优化什么是Dataphin 补充了Dataphin产品能力大图、核心功能特性速览等内容。更新说明什么是Dataphin 2021年10月9日新增资产治理概述资产治理概述中包括了应用场景、功能优势、相关概念和使用流程等内容...

ECU详解

弹性计算单元（Elastic compute units，简称ECU）是分析型数据库MySQL版中衡量实例计算能力的元单位。ECU由内存容量和磁盘容量组成。ECU分类分析型数据库MySQL版中有高性能和大存储两种类型的ECU。高性能：以字母C或者H开头的ECU为高性能...

整体架构

云原生数据仓库AnalyticDB MySQL版是阿里巴巴自主研发、经过超大规模以及...支持更大规模的并发访问、更快读写能力以及更智能的混合查询负载管理等，实现更精细化的资源利用和更低成本的投入，让您能更加专注于业务发展，专注于数据价值。

Iceberg概述

Iceberg是一种开放的数据湖表格式。您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

外部表概述

但这两种方法都有不足之处：第一种方法需要在MaxCompute系统外部做一次中转，如果OSS数据量太大，还需要考虑如何并发来加速，无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限，还需要开发者自己控制作业...

大数据安全治理的难点

入口由于大数据系统要服务不同的角色，每种角色技术水平不同，因此需提供不同的入口给各类人员使用。例如，技术人员可以使用命令行，但数据分析师或运营就需要使用可视化界面或BI工具。不同的入口其登录认证、鉴权逻辑、审计能力可能存在...

术语表

M MapReduce MapReduce是处理数据的一种编程模型，通常用于大规模数据集的并行运算。您可以使用MapReduce提供的接口（Java API）编写MapReduce程序，来处理MaxCompute中的数据。编程思想是将数据的处理方式分为Map（映射）和Reduce（规约）...

EMR+DLF数据湖解决方案

步骤三：初始化数据初始化数据一般常见的几种情况如下：已有大数据集群，需要进行数据迁移，此时可以考虑通过 Jindo DistCp 工具将老集群的数据迁移到OSS中。从RDS/MySQL/Kafka 等业务系统接入数据，此时可以考虑通过实时计算Flink实现...

Paimon概述

Apache Paimon是一种流批统一的湖存储格式，支持高吞吐的写入和低延迟的查询。目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS...

亿海蓝-航运大数据的可视化案例

——亿海蓝CTO 客户简介亿海蓝是中国的航运大数据公司，做为中国最大的AIS数据服务运营商，发展目标是通过大数据技术推动全球航运物流与互联网的融合，加速航运产业转型升级。亿海蓝目前已为全球上百万行业用户提供数据服务，客户涵盖港口...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

产品架构

其基于数据自动分区+分区多副本+LSM的架构思想，具备全局二级索引、多维检索、动态列、TTL等查询处理能力，支持单表百万亿行规模、高并发、毫秒级响应、跨机房强一致容灾，高效满足业务大规模数据的在线存储与查询需求。面向海量半结构化、...

Hudi概述

Apache Hudi是一种数据湖的存储格式，在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。Hudi表类型 Hudi支持如下两种表类型：Copy On Write 使用Parquet格式存储数据。Copy On Write表的更新操作需要通过重写...

基本概念

M MaxCompute 大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的TB、PB级数据仓库解决方案，提供了完善的数据导入方案以及多种经典的分布式计算模型，能够快速地解决海量数据计算问题。通过数据集成服务，可将Lindorm数据导入...

计算设置概述

计算引擎说明操作文档离线计算引擎 MaxCompute 阿里原生的大数据计算平台，承载海量数据存储与计算能力，高效率与高稳定性。设置Dataphin实例的计算引擎为MaxCompute AnalyticDB for PostgreSQL 专注于OLAP领域的分析型数据库，是云端...

可观测性能力

同时，云原生内存数据库Tair 还基于三大数据支柱进行信息聚合，提供数据分析能力，下表为云原生内存数据库Tair、云数据库Redis与原生Redis的可观测性能力对比。为便于浏览和内容表达，表格约定使用下述注释：✔️表示支持。❌表示不支持。...

可观测性能力介绍

背景信息可观测性是以系统的指标、日志、链路追踪三大数据支柱为基础，衍生出如数据监控、问题分析、系统诊断等一系列的能力。指标（Metrics）：记录一段时间内各个维度的量化信息，用来观察系统的某些状态和趋势。日志（Logs）：记录程序...

数据集成概述

数据集成是基于Dataphin构建的简单高效的数据同步平台，致力于提供具有强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力。背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量...

什么是ETL

数据传输服务DTS提供的流式数据ETL（Extract Transform Load）功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务，并结合DTS的高效流数据复制能力，可以实现流式数据的抽取、数据转换和加工、数据...

流式ETL

数据传输服务DTS提供的流式数据ETL（Extract Transform Load）功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务，并结合DTS的高效流数据复制能力，可以实现流式数据的抽取、数据转换和加工、数据...

功能特性

SQL窗口介绍 SQL Console初体验 SQL Console新交互模式下变更表数据和结构数据工作站数据集成离线集成是一种低代码开发数据加工任务的工具，可以组合各类任务节点形成数据流，通过周期调度运行达到数据加工、数据同步的目的。...

概述

简介 Row-oriented AI，即AI模型推理以及通过Loadable Function作为Hook来调用LLM（大语言模型）的能力，是PolarDB for AI的一个重要子功能。该功能支持用户将训练好的AI模型注册到 PolarDB 内部进行推理，并提供Native SQL能力给用户，...

什么是云原生多模数据库Lindorm

多模型的核心能力主要由以下几大数据引擎提供，包括：数据引擎核心能力宽表引擎负责宽表与对象数据的管理和服务，具备全局二级索引、多维检索、动态列、TTL等能力，适用于元数据、订单、账单、画像、社交、feed流、日志等场景，兼容...

将云消息队列 Kafka 版的数据迁移至MaxCompute

背景信息 大数据计算服务MaxCompute（原ODPS）是一种大数据计算服务，能提供快速、完全托管免运维的EB级云数据仓库解决方案。DataWorks基于MaxCompute计算和存储，提供工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。在...

大数据是种能力

新品推荐