大数据等一些新型-大数据等一些新型文档介绍内容-阿里云

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

内存型

数据结构模块集成云Redis社区版与开源Redis相同，支持String、List、Hash、Set、Sorted Set、Stream等数据类型，能够满足大部分场景下的开发需求，但在一些复杂场景中，原生数据类型无法直接满足某些业务需求，只能使用通过调整应用数据、...

应用场景

互联网类应用 Cassandra能够支持大并发低延时的访问需求，具备高...在一些需要应用大量数据对用户行为进行分析的场景中，可以通过整合多种数据来源，存储用户行为数据，构建用户画像，实时存储在Cassandra中，提供大数据风控、推荐等服务。

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

典型场景

ETL离线数据处理面对复杂SQL优化和海量数据大规模聚合分析等挑战，云原生数据仓库AnalyticDB PostgreSQL版具有如下技术优势：支持标准SQL、OLAP窗口函数和存储过程。ORCA分布式SQL优化器，复杂查询免调优。MPP多节点全并行计算，PB级数据...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

东软案例

东软在物联网、互联网等新场景下面临的IT系统运维主要问题与挑战有：多模型数据融合分析困难，面向海量数据采集终端同时写入数据的并发能力弱，数据量大且价值密度低导致存储成本高，基于开源软件自建数据存储集群稳定性低运维成本高等问题...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

产品优势

支持防护常见的结构化数据、非结构化数据和大数据产品，例如对象存储OSS、云数据库RDS、MaxCompute等。智能化运用大数据和机器学习能力，通过智能化的算法，对敏感数据和高风险活动，例如数据异常访问和潜在的泄露风险进行有效识别和监控...

DMS支持的数据库

关系型数据库 MySQL SQL Server PostgreSQL MariaDB OceanBase MySQL模式 OceanBase Oracle模式 OceanBase ODP Oracle DB2 达梦数据库 OpenGauss 数据仓库 ClickHouse SelectDB NoSQL数据库 Redis MongoDB 大数据 Hive 录入他云/自建数据库...

冷热分层

Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作。通过结合Delta Lake和上下游组件，您可以搭建出一个便捷、易用、安全的数据湖架构。在数据湖架构设计中，通常会...

执行补数据并查看补数据实例（新版）

补数据可通过补历史或未来一段时间的数据，将写入数据至对应时间分区。代码中的调度参数，将根据补数据选择的业务时间自动替换为具体值，并结合业务代码将对应时间数据写入指定分区。具体写入的分区与执行的代码逻辑，与任务定义的代码...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

高压缩引擎（X-Engine）介绍

直接将 PolarDB 高压缩引擎（X-Engine）作为大容量关系数据库使用，以满足一些写入数据量巨大，但读频次较低的业务的需求（如系统监控日志等）。您可以通过阿里云 DTS 持续实时地将在线库的数据迁移至 PolarDB 高压缩引擎（X-Engine），或...

基于Delta lake的一站式数据湖构建与分析实战

数据湖计算与分析相比于数据仓库，数据湖以更开放的方式对接多种不同的计算引擎，如传统开源大数据计算引擎Hive、Spark、Presto、Flink等，同时也支持云厂商自研的大数据引擎，如阿里云MaxCompute、Hologres等。在数据湖存储与计算引擎...

MaxFrame概述

您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。版本说明当前MaxCompute MaxFrame功能...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

准备数据源和计算源

准备数据源 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型及操作指导，请参见 Dataphin支持的数据源。重要确定业务数据源类型后，在Dataphin创建...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

登录数据库

相关操作在您成功登录数据库后，可能需要进行如下操作：在SQL Console中，针对该数据库进行创建表、查询表数据、变更表数据等操作。具体操作，请参见 SQL Console初体验。导出数据库中已有的数据。具体操作，请参见数据库导出。创建数据...

数据源白名单配置

产品名称操作说明云原生大数据计算服务MaxCompute 设置白名单实时数仓Hologres IP白名单云数据库ClickHouse 设置白名单消息队列Kafka版配置白名单云原生分布式数据库PolarDB-X 设置白名单云原生分布式数据库PolarDB-X（2.0）设置白...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

数据扫描和识别

支持扫描的数据源类型如下：结构化数据：RDS、PolarDB、PolarDB-X、MongoDB、OceanBase、自建数据库非结构化数据：OSS 大数据：TableStore、MaxCompute、ADB-MYSQL、ADB-PG 数据源授权完成后需要多长时间完成扫描？DSC 完成数据源授权后，...

DataWorks V3.0

DataWorks V3.0核心特性支持多种计算引擎 DataWorks V3.0全新升级了多引擎插件化架构，在DataWorks V2.0版本仅支持MaxCompute计算引擎的基础上，新增开源大数据引擎E-MapReduce、交互式分析和图计算服务（Graph Compute）等引擎服务。...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

全景视角

背景信息为提高不同使用场景下的数据治理效率和质量，DataWorks为您提供以下视角：数据管理视角：在数据资产管理、数据安全加固、数据权限管理等数据管理场景下，建议您使用数据管理视角，关注查看数据管理过程中，表的统计数据、安全权限...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

查看敏感数据识别结果

仅支持在结构化数据、半结构化数据、非结构化数据或 大数据 分类下分别选择一个或多个数据类型，不支持跨分类同时选择多个数据类型。如果您未选中任意数据类型，数据安全中心默认展示所有数据类型下的敏感数据识别结果。数据模板：在 ...

功能简介

空间数据支持单文件、多文件、数据库等多种形态，矢量、栅格、瓦片、倾斜摄影等多种类型，不同格式的多源异构空间数据的接入和管理；支持本地上传、从OSS导入等多种方式添加数据；添加数据的同时支持各类型空间数据的元信息自动解析，支持...

空间数据（邀测中）

空间数据支持单文件、多文件、数据库等多种形态，矢量、栅格、倾斜摄影等多种类型，不同格式的多源异构空间数据的接入和管理；支持本地上传、从OSS导入等多种方式添加数据；添加数据的同时支持各类型空间数据的元信息自动解析，支持按空间...

数据保护规则简介

在使用全密态功能之前，您需要配置数据保护规则，规则包括：指定目标数据列为被保护数据、声明数据保护方法（例如加密、脱敏）、授权指定用户访问数据等。本文介绍数据保护规则格式及说明。规则格式及说明 {"version":20230830,"rules":[{...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

产品优势

背景信息云原生多模数据库 Lindorm 兼容HBase、Cassandra、S3、TSDB、HDFS、Solr等多种标准接口，支持宽表、时序、对象、文本、队列、空间等多种数据模型，适用于日志、账单、标签等多种数据的存储及分析，具有高性能、低成本等特点。...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

什么是数据安全中心

数据安全中心（Data Security Center，简称DSC），在满足等保2.0“安全审计”及“个人信息保护”的合规要求的基础上，为您提供敏感数据识别、数据安全审计、数据脱敏、智能异常检测 等数据安全能力，形成一体化的数据安全解决方案。...

大数据等一些新型

新品推荐