大数据市场洞察-大数据市场洞察文档介绍内容-阿里云

项目管理

创建Databricks 数据洞察集群后，您可以在数据开发中创建项目，并在项目中进行作业的编辑和工作流的调度。新建项目之后，您可以对项目进行管理，为项目关联集群资源、添加项目成员以及设置全局变量。前提条件已创建集群，详情请参见集群...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

EMR+DLF数据湖解决方案

通过EMR+DLF数据湖方案，可以为企业提供数据湖内的统一的元数据管理，统一的权限管理，支持数据湖的多种管理如数据生命周期，湖格式自动优化，存储分析等。同时支持多源数据入湖以及一站式数据探索的能力。本文为您介绍EMR+DLF数据湖方案...

工作流调度Zeppelin Notebook

在Databricks数据开发中，您可以在项目空间的作业编辑中创建一组有依赖的 Zeppelin 作业，然后创建工作流，按照依赖次序定义执行顺序，Databricks工作流支持基于有向无环（DAG）并行执行大数据作业。前提条件通过主账号登录阿里云 ...

Databricks数据洞察Notebook演示

本文针对Databricks数据洞察Notebook基本使用的一个示例。前提条件通过主账号登录阿里云 Databricks控制台。已创建集群，具体请参见创建集群。已使用OSS管理控制台创建非系统目录存储空间，详情请参见创建存储空间。警告首次使用DDI...

数据导入概览

从阿里云对象存储OSS导入数据至图数据库GDB实例图数据库GDB服务端集成有数据导入模块，可以获取您提供的.csv格式的OSS数据文件，并将其解析为图中的点数据和边数据，然后将点数据和边数据导入至图数据库GDB实例。步骤步骤说明 ① 将需要...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

MaxFrame概述

您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。版本说明当前MaxCompute MaxFrame功能...

常见问题（FAQ）

格式和计算层有助于简化大数据管道的构建并提高管道的整体效率。Delta Lake使用什么格式存储数据？Delta Lake使用版本化的Parquet文件将您的数据存储在您的云存储中。除版本外，Delta Lake还存储事务日志，以跟踪对表或Blob存储目录所做的...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

数据库导出

当您需要进行数据库备份、导出数据库表进行数据分析等操作，您可使用数据管理DMS 的数据导出功能，该功能可通过提交工单的方式导出数据库。前提条件数据库类型如下：MySQL系列：自建MySQL、RDS MySQL、PolarDB MySQL版、AnalyticDB ...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka至湖仓版（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS至湖仓版（推荐）大数据 Hive 数据迁移 Hive数据导入相关文档 AnalyticDB...

Quick BI

Quick BI是一款专为云上用户和企业量身打造的新一代自助式智能BI服务平台，其简单易用的可视化操作和灵活高效的多维分析能力，让精细化数据洞察为商业决策保驾护航。您可以使用外网或VPC网络连接云数据库ClickHouse，在Quick BI中添加云...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

典型场景

典型场景数据仓库服务您可以通过数据传输服务（DTS）或数据集成服务（DataX），将云数据库（例如RDS、PolarDB）或自建数据库批量同步到云原生数据仓库AnalyticDB PostgreSQL版。云原生数据仓库PostgreSQL版支持对海量数据的复杂ETL进行...

数据导入方式介绍

为满足多样化的数据导入需求，云原生数据仓库AnalyticDB MySQL版提供了多种数据导入方式，包括：通过外表导入数据、使用DataWorks导入数据和利用JDBC通过程序导入数据等。本文介绍各导入方式的特性及适用场景，帮助您选择正确的数据导入...

创建Impala数据源

在新建数据源对话框的 大数据存储区域，选择 Impala。如果您最近使用过Impala，也可以在最近使用区域选择Impala。同时，您也可以在搜索框中，输入Impala的关键词，快速筛选。在新建Impala数据源对话框中，配置连接数据源参数。配置...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

ETL工作流快速体验

GitHub十大热门编程语言 DataWorks MaxCompute 函数计算 OSS 数据集成数据开发基于GitHub Archive公开数据集，通过DataWorks 数据集成模块获取过去1小时GitHub中提交次数最多的代码语言数据，在DataStudio 数据开发模块通过函数计算...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

阶段一：基础防护建设

例如：《金融数据安全分级指南 JR/T 0197-2020》《网络安全标准实践指南——网络数据分类分级指引》《信息安全技术个人信息安全规范 GB/T 35273—2020》《信息技术大数据数据分类指南 GB/T 38667-2020》《基础电信企业数据分类分级方法 YD/...

数据变更最佳实践

批量和实时导入数据批量导入：适用于大数据量导入的场景，导入过程中可以查询旧数据，导入操作完成后一键切换新数据。导入失败时，支持回滚新数据，不影响查询旧数据。例如，从MaxCompute、OSS中导入数据到 AnalyticDB MySQL版时，推荐...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

机器学习开发示例

本文介绍如何使用阿里云 Databricks 数据洞察的Notebook进行机器学习开发。前提条件通过主账号登录阿里云 Databricks控制台。已创建集群，具体请参见创建集群。已使用OSS管理控制台创建非系统目录存储空间，详情请参见控制台创建存储...

创建Impala数据源

在新建数据源对话框的 大数据存储区域，选择 Impala。如果您最近使用过Impala，也可以在最近使用区域选择Impala。同时，您也可以在搜索框中，输入Impala的关键词，快速筛选。在新建Impala数据源对话框中，配置连接数据源参数。配置...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

启用成本洞察功能

成本洞察数据量与集群相关云资源每天账单数量、集群节点规模相关。您可以在ARMS Prometheus控制台查询集群成本洞察数据量。参照下文开启成本洞察功能后，您可以登录 ARMS控制台，在控制台左侧导航栏选择 Prometheus监控>资源消耗，在右侧...

查看敏感数据识别结果

仅支持在结构化数据、半结构化数据、非结构化数据或 大数据 分类下分别选择一个或多个数据类型，不支持跨分类同时选择多个数据类型。如果您未选中任意数据类型，数据安全中心默认展示所有数据类型下的敏感数据识别结果。数据模板：在 ...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

大数据市场洞察

新品推荐