大数据包括哪些内容-大数据包括哪些内容文档介绍内容-阿里云

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

MaxFrame概述

您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。版本说明当前MaxCompute MaxFrame功能...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

整体架构

AnalyticDB MySQL版从2014年开始正式对外提供服务，覆盖十多个行业，既包括传统的大中型企业和政府机构，也包括众多的互联网公司。AnalyticDB MySQL版是基于数据库大数据一体化的理念和趋势，在工程上深度打磨出的云原生数据仓库。技术...

数据导入方式介绍

为满足多样化的数据导入需求，云原生数据仓库AnalyticDB MySQL版提供了多种数据导入方式，包括：通过外表导入数据、使用DataWorks导入数据和利用JDBC通过程序导入数据等。本文介绍各导入方式的特性及适用场景，帮助您选择正确的数据导入...

空间数据管理概览

在时空基底模块直观浏览城市的一些基础地理数据，包括道路，建筑，水体，绿地；在数据资源模块查看我的数据详情和上传数据；在账号管理模块查看自己的主账号及账号权限；在快速入口模块浏览最近打开的4个项目等。3 我的项目展示已...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

空间数据管理概览

在时空基底模块直观浏览城市的一些基础地理数据，包括道路，建筑，水体，绿地；在数据资源模块查看我的数据详情和上传数据；在账号管理模块查看自己的主账号及账号权限；在快速入口模块浏览最近打开的4个项目等。3 我的项目展示已...

水波图

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

升级

在阿里云官网，鼠标悬停至产品后，再将鼠标悬停至左侧导航栏的 大数据 上，单击数据开发和治理列下的 Dataphin。在Dataphin产品详情页，单击产品控制台，进入Dataphin管理控制台页面。在Dataphin管理控制台页面，单击已开通版本详情后...

配置Amazon S3输入组件

配置Amazon S3输入组件后，可以读取Amazon S3数据源中的数据至Dataphin，进行数据集成与数据开发。本文为您介绍如何配置Amazon S3输入组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建Amazon S3数据源。具体操作，请参见 ...

配置Amazon S3输入组件

配置Amazon S3输入组件后，可以读取Amazon S3数据源中的数据至Dataphin，进行数据集成与数据开发。本文为您介绍如何配置Amazon S3输入组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建Amazon S3数据源。具体操作，请参见 ...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

外部表概述

对于MaxCompute表外的各种用户数据（包括文本以及各种非结构化的数据），您需要通过不同工具导入MaxCompute表再进行计算。以OSS为例，如果您需要在MaxCompute中处理OSS上的数据，通常有以下两种方式：通过OSS SDK或者其他工具从OSS下载数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

配置HDFS输入组件

同步HDFS数据源的数据至其他数据源的场景中，您需要先配置HDFS输入组件读取的数据源，再配置数据同步的目标数据源。本文为您介绍如何配置HDFS输入组件。前提条件已创建HDFS数据源，如何创建，请参见创建HDFS数据源。进行HDFS输入组件属性...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

数据变更最佳实践

通过 TRUNCATE TABLE db_name.table_name 删除指定表（包括所有二级分区）数据。批量和实时导入数据批量导入：适用于大数据量导入的场景，导入过程中可以查询旧数据，导入操作完成后一键切换新数据。导入失败时，支持回滚新数据，不影响...

创建同步RDS/MySQL/ADS3.0

HostRDS服务地址，请务必填写内网地址以确保服务联通性导入字段DataHub可以根据用户设置将部分column内容同步到RDS表中写入模式包括IGNORE和OVERWRITE两种模式 IGNORE:忽略重复数据，即 INSERT IGNORE INTO 写入 OVERWRITE:更新重复...

内置全密态能力

PolarDB PostgreSQL版（兼容Oracle）提供全密态数据库功能，数据在用户侧加密后传入数据库管理系统，数据明文对于数据库服务端不可见，实现了端到端的全程加密的数据强安全性。全密态云数据库是达摩院数据库与存储实验室的自研产品，可以...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

创建同步OSS

准备工作 1.准备OSS Bucket DataHub支持将数据同步到对象存储...确认同步数据同步文件在OSS中的命名格式如下图所示：包含Bucket、目录前缀、二级目录以及文件名等下载该文件，并查看文件内容，TUPLE同步文件内容为csv数据格式，如下图所示：

数据保护规则简介

在使用全密态功能之前，您需要配置数据保护规则，规则包括：指定目标数据列为被保护数据、声明数据保护方法（例如加密、脱敏）、授权指定用户访问数据等。本文介绍数据保护规则格式及说明。规则格式及说明 {"version":20230830,"rules":[{...

数据分析概述

进入数据分析首页，页面包含以下两个区域：快捷入口：在快捷入口区域，单击对应图标进入 SQL查询、电子表格、数据上传等模块进行数据分析操作。最近编辑：在最近编辑区域，可以查看最近编辑的文件，单击文件名打开文件进行后续操作...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

查看敏感数据识别结果

仅支持在结构化数据、半结构化数据、非结构化数据或 大数据 分类下分别选择一个或多个数据类型，不支持跨分类同时选择多个数据类型。如果您未选中任意数据类型，数据安全中心默认展示所有数据类型下的敏感数据识别结果。数据模板：在 ...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

适配组件数据

数据看板创建完成后，您可以根据实际需要通过以下方式修改组件数据内容。背景信息本文以使用静态数据源为例，因此可以直接在组件的数据源配置区域粘贴准备好的数据。如果您的数据源为 CSV文件、数据库等其他类型的数据，需要首先添加...

适配组件数据

可视化应用创建完成后，您可以根据实际需要通过以下方式修改组件数据内容。背景信息本文以使用静态数据源为例，因此可以直接在组件的数据配置区域粘贴准备好的数据。如果您的数据源为 CSV文件、数据库等其他类型的数据，需要首先添加...

功能简介

数据查询为用户提供对云计算资源中物理表基本情况的概览能力，帮助用户直观了解物理表基础信息、字段内容分布等情况，建立对数据表的宏观理解，为建立数据标准、定义数据模型、定义数据加工逻辑等工作提供基础依据。数据导入支持512 MB...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源（例如MySQL数据库）的数据，也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上，您可以直接在DataWorks上配置MaxCompute数据源并读写...

数据查询

数据查询为用户提供对云计算资源中物理表基本情况的概览能力，帮助用户直观了解物理表基础信息、字段内容分布等情况，建立对数据表的宏观理解，为建立数据标准、定义数据模型、定义数据加工逻辑等工作提供基础依据。如果数据表格存储的是...

需求阶段

对于流出外部的数据，更需要严格评估流出数据内容、流出目的地是否符合公司数据安全的要求。说明此项评估是不可跳过的步骤。实现细节分析：数据产品经理主导，对实现需求的细节关键点进行确认，包括但不限于数据口径、接口格式、供数频率...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

Transaction Table2.0概述

随着当前数据处理业务场景日趋复杂，很多业务场景并不要求延时秒级更新可见或者行级更新，更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景，MaxCompute支持基于Transaction Table2.0实现近实时的增全量一体的数据存储...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

大数据包括哪些内容

新品推荐