智能数据存储-智能数据存储文档介绍内容-阿里云

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

创建Hologres数据源

在新建数据源对话框的大数据存储 区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

准备工作

本章节主要为您介绍使用表格存储搭建海量智能元数据管理系统前的准备工作。开通表格存储已开通表格存储服务。具体操作，请参见开通表格存储服务。创建表格存储实例实例是您使用和管理表格存储服务的实体，每个实例相当于一个数据库。...

创建Impala数据源

在新建数据源对话框的大数据存储 区域，选择 Impala。如果您最近使用过Impala，也可以在最近使用区域选择Impala。同时，您也可以在搜索框中，输入Impala的关键词，快速筛选。在新建Impala数据源对话框中，配置连接数据源参数。配置...

新建ArgoDB数据源

在新建数据源对话框的大数据存储 区域，选择 ArgoDB。如果您最近使用过ArgoDB，也可以在最近使用区域选择ArgoDB。同时，您也可以在搜索框中，输入ArgoDB的关键词，快速筛选。在新建ArgoDB数据源对话框中，配置数据源的基本信息。...

新建Paimon数据源

在新建数据源对话框的大数据存储 区域，选择 Paimon。如果您最近使用过Paimon，也可以在最近使用区域选择Paimon。同时，您也可以在搜索框中，输入Paimon的关键词，快速筛选。在新建Paimon数据源对话框中，配置数据源的基本信息。...

资源分析

说明副本指的是一份数据可以在不同的节点上存储，这些节点上存储的每份数据相同，数据副本是增加数据存储冗余来防止数据丢失。计算分：项目粒度的计算健康分。存储分：项目粒度的存储健康分。管理员：当前项目的管理员信息。待治理项：待...

创建MySQL数据源

常用于网站、应用程序和商业产品，是一种常见的主要关系数据存储系统。更多详情请参见 MySQL官网。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据...

创建Hologres数据源

在新建数据源对话框的大数据存储 区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

创建Impala数据源

在新建数据源对话框的大数据存储 区域，选择 Impala。如果您最近使用过Impala，也可以在最近使用区域选择Impala。同时，您也可以在搜索框中，输入Impala的关键词，快速筛选。在新建Impala数据源对话框中，配置连接数据源参数。配置...

资源分析

说明副本指的是一份数据可以在不同的节点上存储，这些节点上存储的每份数据相同，数据副本是增加数据存储冗余来防止数据丢失。当计算引擎为Impala时，数据表为Kudu表，Dataphin将无法为您获取存储量信息。计算分：项目粒度的计算健康分。...

创建TDH Inceptor数据源

在新建数据源对话框的大数据存储 区域，选择 TDH Inceptor。如果您最近使用过TDH Inceptor，也可以在最近使用区域选择TDH Inceptor。同时，您也可以在搜索框中，输入TDH Inceptor的关键词，快速筛选。在新建TDH Inceptor数据源 ...

实时研发基本流程概述

背景信息某公司的订单系统使用MySQL作为存储数据库，其中的oms_order为存储订单的表。现在要开始设计一个营销活动，在活动期间需要实时地统计每个产品类型的销售数量，用于快速地支持活动方案调整。以下为数据流向的示意图：订单系统MySQL...

实时研发基本流程概述

背景信息某公司的订单系统使用MySQL作为存储数据库，其中的oms_order为存储订单的表。现在要开始设计一个营销活动，在活动期间需要实时地统计每个产品类型的销售数量，用于快速地支持活动方案调整。以下为数据流向的示意图：订单系统MySQL...

文档更新动态（2022年）

新增说明 Dataphin免费试用申请、Dataphin智能数据建设与治理试用服务协议 2022年10月更新时间特性描述类别产品文档 2022年10月25日资源用量详情抽屉优化新增支持查看当前可用数据处理单元规格上线。新增数据标准、智能运维的用量...

配置Amazon S3输出组件

配置Amazon S3输出组件，可以将外部数据库中读取的数据写入到Amazon S3，或从大数据平台对接的存储系统中将数据复制推送至Amazon S3，进行数据整合和再加工。本文为您介绍如何配置Amazon S3输出组件。前提条件已创建Amazon S3数据源。具体...

配置Amazon S3输出组件

配置Amazon S3输出组件，可以将外部数据库中读取的数据写入到Amazon S3，或从大数据平台对接的存储系统中将数据复制推送至Amazon S3，进行数据整合和再加工。本文为您介绍如何配置Amazon S3输出组件。前提条件已创建Amazon S3数据源。具体...

公告

2022年06月10日-Dataphin更名通知为了更好地帮助广大客户解决数据资产建设问题，显著提升数据治理水平，Dataphin将进一步加强资产治理方向的投入，正式更名为“智能数据建设与治理Dataphin”，希望能够更好的助力企业构建质量可靠、消费...

创建标签项目

空间类型包括4种：中间层：通常用于储存数据进行加工后，一致的、准确的、干净的数据。贴源层：通常用来储存从业务系统中集成的原始数据，为后续的加工与开发作为数据的来源。应用层：面向业务需求，定义生成可应用于不同场景的个性化、...

识别规则及识别方式

采样存储为了降低每次识别任务的成本，提高识别准确率，安全模块支持对采样数据进行加密存储。需要注意的是节约计算资源的同时会消耗部分存储资源。开启后会存储数据采样，后续识别任务只会扫描采样数据。采样数据的更新频率可以根据业务...

配置OSS输出组件

配置OSS输出组件，可以将外部数据库中读取的数据写入到OSS，或从大数据平台对接的存储系统中将数据复制推送至OSS，进行数据整合和再加工。本文为您介绍如何配置OSS输出组件。前提条件已创建OSS数据源。具体操作，请参见创建OSS数据源。...

配置OSS输出组件

配置OSS输出组件，可以将外部数据库中读取的数据写入到OSS，或从大数据平台对接的存储系统中将数据复制推送至OSS，进行数据整合和再加工。本文为您介绍如何配置OSS输出组件。前提条件已创建OSS数据源。具体操作，请参见创建OSS数据源。...

创建HDFS数据源

DataNode用于存储数据，及处理数据块的读写。如果您使用的是HDFS，在引入HDFS的业务数据至Dataphin中或将Dataphin数据导出至HDFS的场景中，您需要先完成HDFS数据源的创建。更多HDFS信息，请参见 HDFS官方介绍。使用限制 Dataphin仅支持超级...

配置Amazon S3输入组件

配置Amazon S3输入组件后，可以读取Amazon S3数据源中的数据至Dataphin，进行数据集成与数据开发。本文为您介绍如何配置Amazon S3输入组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建Amazon S3数据源。具体操作，请参见 ...

配置Amazon S3输入组件

配置Amazon S3输入组件后，可以读取Amazon S3数据源中的数据至Dataphin，进行数据集成与数据开发。本文为您介绍如何配置Amazon S3输入组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建Amazon S3数据源。具体操作，请参见 ...

应用场景

物联网存储IoTstore作为物联网的统一数据存储平台，可应用于车联网、智能家居、工业物联网等场景。车联网车联网是物联网技术在智能交通领域的典型应用。在智能交通领域通过使用物联网、云计算、传感器、大数据、无线通信等技术对交通信息...

智能数据建设与治理 Dataphin

Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎，为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据构建及管理服务。

Dataphin支持的实时数据源

Ververica Flink支持的实时数据源存储类型数据源类型读写维表读大数据存储 MaxCompute 支持支持支持 DataHub 支持支持-Hologres 支持支持支持数据湖 Hudi 支持支持-Iceberg 支持（仅支持原生DDL方式）支持（仅支持原生DDL方式...

Dataphin支持的实时数据源

Ververica Flink支持的实时数据源存储类型数据源类型读写维表读大数据存储 MaxCompute 支持支持支持 DataHub 支持支持-Hologres 支持支持支持数据湖 Hudi 支持支持-Iceberg 支持（仅支持原生DDL方式）支持（仅支持原生DDL方式...

功能特性

数据库文件存储功能集功能功能描述参考文档 DBFS特性原子写支持DIRECT IO的原子写，需按4K，8K，16K对齐-共享读写一份数据可共享式多点挂载并进行读写，读写可线性扩展-存储加密通过对数据库文件存储实施加密，可以确保数据库文件...

应用场景

主备两份数据存储。主备日志复制同步模式下，影响主库性能。异步模式下，备库延迟存在数据丢失风险。部署及切换复杂，需保证切换工具的高可用。传统数据库搬站上云传统数据库，例如：Oracle/RAC，SAP HANA等基于SAN之上构建。与SAN相比，...

应用场景

智能媒体管理为云存储上的文档、图片、视频等非结构化数据提供智能分析处理能力，并通过提取关键元数据构建索引，实现非结构化数据的查询能力，可应用于文档管理、图片社交分析、家庭设备数据存储等场景。文档管理场景在网盘、邮箱、文档...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎，为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能描述 Dataphin全托管全托管又称公共云多租户模式，只需购买...

数据倾斜诊断

数据倾斜计算规则 AnalyticDB PostgreSQL版会根据表的倾斜率去定义数据存储在每个计算节点之间的倾斜程度。倾斜率的取值范围是0%~100%，该值越大表示数据倾斜的越严重。倾斜率计算公式如下：Avg=(S1+S2+.Sn)/n Max=Max(S1,S2,.Sn)倾斜率=...

资产安全概述

静态脱敏直接修改底层数据的存储，数据存储时就已经是加密或者脱敏过的，例如常见的pn_md5。典型应用场景：数据集成时对敏感数据加密、数仓分层建设时对应用层数据脱敏等。动态脱敏白名单应用于特定的场景下，需要暂时对一些用户开放...

资产安全概述

静态脱敏直接修改底层数据的存储，数据存储时就已经是加密或者脱敏过的，例如常见的pn_md5。典型应用场景：数据集成时对敏感数据加密、数仓分层建设时对应用层数据脱敏等。动态脱敏白名单应用于特定的场景下，需要暂时对一些用户开放...

混合存储型（已停售）

使用混合存储型，将所有课程信息存储到磁盘，访问量大的课程和题库数据存储到内存并常驻内存，保证高频访问数据的读写性能，实现高性能与高性价比的有机结合。典型业务场景的示例如下：场景1：使用开源Redis集群存储了100 GB的数据，但高峰...

网络方案概述

使用阿里云Dataphin可以实现零部署成本、零运维成本构建智能大数据研发与治理平台。使用阿里云Dataphin时，若已有的数据源部署在本地IDC机房，首先需要打通本地IDC机房与阿里云Dataphin网络。本文将介绍本地IDC机房数据源与阿里云Dataphin...

什么是数据库存储DBFS

数据库文件存储（DBFS），是一款针对数据库场景的云原生共享文件存储服务。它基于共享存储架构设计，通过文件协议提供数据库定制功能，具备企业级存储特性。主要服务于云上自建数据库，基于传统SAN的应用等，为用户提供高IO性能和高可用性...

智能数据存储

新品推荐