大数据和信息的关系-大数据和信息的关系文档介绍内容-阿里云

自定义RDBMS数据库及同步数据

为了满足不同业务场景数据集成的诉求，Dataphin支持用户自定义当前系统不支持的RDBMS数据库（关系型数据库）类型的组件，并进行数据同步。您只需要准备关系型数据库的驱动，即可自定义RDBMS数据库类型的组件。本教程以MySQL为例，为您介绍...

自定义RDBMS数据库及同步数据

为了满足不同业务场景数据集成的诉求，Dataphin支持用户自定义当前系统不支持的RDBMS数据库（关系型数据库）类型的组件，并进行数据同步。您只需要准备关系型数据库的驱动，即可自定义RDBMS数据库类型的组件。本教程以MySQL为例，为您介绍...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

Superset（仅对存量用户开放）

使用Superset访问Hive数据库 Superset提供了SQLAlchemy以多种语言支持各种各样的数据库，包括MySQL、Oracle、PostgreSQL和Microsoft SQL Server等关系型数据库，以及Hive、Presto和Druid等大数据查询引擎。这里以E-MapReduce Hadoop集群...

什么是图数据库GDB?

图数据库与传统关系型数据库相比的优势传统的关系型数据库和图数据库无论是在模型，存储以及查询优化上都存在极大的差异。比如社交用户关系中的2度查询请求，传统关系型数据库处理起来至少是秒级别的，3度查询更差甚至无法支持。对比而言...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

管理数据源

查看数据源创建数据源后，您可以在数据源列表查看所有已创建数据源的基本信息、详情和网络连接等信息，也可以根据数据源类型进行筛选、根据数据源的创建时间进行排序，以及模糊搜索指定数据源。登录 OceanBase 管理控制台。在左侧导航栏，...

发现

支持展示数据表资产基本信息、扩展信息、字段信息、数据预览、血缘关系和数据质量等信息，并提供申请数据表使用权限的功能。支持展示API基本信息、扩展信息、接口信息、血缘信息，并提供申请API使用权限的功能。支持展示指标基本信息、扩展...

查看敏感数据血缘（公测）

DataWorks的数据血缘功能支持可视化展示敏感数据的血缘关系，自动分析字段之间的异常关联关系、敏感数据识别结果异常的字段，帮助您梳理敏感数据的扩散情况及影响面，提高数据识别效率。本文为您介绍如何查看血缘关系图。背景信息数据血缘...

同步时源库为Oracle的注意事项及限制

关于数据类型映射关系的更多信息，请参见结构初始化涉及的数据类型映射关系暂不支持同步触发器。建议您删除源库的触发器，否则可能会因触发器导致数据不一致。若您需要同步触发器，详情请参见源库存在触发器时如何配置同步作业。DTS会...

快速实现数据分类分级

识别任务所需时间和需扫描的数据量有关系，如果需扫描的数据量较大时，需要花费较多时间，请您耐心等待。扫描状态为完成后，才可查看分类分级结果。说明除系统默认任务外，您可以根据业务所处的行业将对应的行业模板设置为主用模板进行...

创建Hudi数据源

本文为您介绍如何创建Hudi数据源。背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据...重要创建Hudi数据源时不支持测试数据源是否可以和Dataphin进行正常的连通，因此需要您确保连接信息的正确性。您可根据网络连通解决方案自行排查。

MaxCompute表数据

查看血缘信息血缘信息是基于解析调度作业、数据同步等真实数据的流转情况，得出的表和表、字段和字段之间的血缘关系。在血缘信息页面，您可查看表或表字段的上下游，查看表原始数据来源及表数据最终流向的数据库相关信息。同时，也可根据...

创建Teradata数据源

在新建数据源对话框的关系型数据库区域，选择 Teradata。如果您最近使用过Teradata，也可以在最近使用区域选择Teradata。同时，您也可以在搜索框中，输入Teradata的关键词，快速筛选。在新建Teradata数据源对话框中，配置连接数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

PolarDB MySQL版迁移至ClickHouse集群

目标库对象名称大小写策略您可以配置目标实例中迁移对象的库名、表名和列名的英文大小写策略。默认情况下选择 DTS默认策略，您也可以选择与源库、目标库默认策略保持一致。更多信息，请参见目标库对象名称大小写策略。源库对象在源库...

如何处理Tair集群数据倾斜

常见于在KKV（Key-key-value）类型的数据结构中，例如Hash、List、Set、Zset等，存放过多或过大的field，从而导致单个Key过大，产生实例数据倾斜。更多关于大Key的信息，请参见发现并处理大Key和热Key。避免使用大Key。对大Key进行拆分，...

创建Teradata数据源

在新建数据源对话框的关系型数据库区域，选择 Teradata。如果您最近使用过Teradata，也可以在最近使用区域选择Teradata。同时，您也可以在搜索框中，输入Teradata的关键词，快速筛选。在新建Teradata数据源对话框中，配置连接数据...

新零售：杭州数云信息技术有限公司

PolarDB 采用存储和计算分离的架构，提供分钟级的配置升降级、秒级的故障恢复、全局数据一致性和免费的数据备份容灾服务，既融合了商业数据库稳定可靠、高性能、可扩展的特征，又具有开源云数据库简单开放、自我迭代的优势。本文介绍杭州...

东软案例

对映可用性保障运维监控采集数据采集种类，以及需要存储的数据量同步激增，现有监控系统基于RRD数据库或关系数据库搭建的单模引擎的存储、检索能力和需求脱节。产品数字化导致应用结构愈加复杂，监控数据类型更加多样：技术方面，诸如混合...

备份大小

备份大小说明与存储空间使用量的关系 数据备份和日志备份存放在备份空间，都不占用存储空间。日志分为本地日志和日志备份。日志说明费用作用本地日志实例的原始日志，存放于实例的存储空间。不涉及费用，但占用实例存储空间。例如，...

数据迁移

背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，可以将数据迁移至 MaxCompute。MaxCompute为您提供了完善的数据迁移方案以及多种经典的分布式计算模型，能够快速地解决海量数据存储和...

PolarDB MySQL版同步至ClickHouse集群

目标库对象名称大小写策略您可以配置目标实例中同步对象的库名、表名和列名的英文大小写策略。默认情况下选择 DTS默认策略，您也可以选择与源库、目标库默认策略保持一致。更多信息，请参见目标库对象名称大小写策略。源库对象在源库...

概述

大多数系统目录都是在数据库创建过程中从模版数据库中复制过来的，因此都是数据库相关的。少数目录物理上是在一个集簇的所有数据库间共享。系统目录见下表：目录名称用途 pg_aggregate 聚集函数。pg_am 关系访问方法。pg_amop 访问方法...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

Serverless模式

AnalyticDB PostgreSQL版全新推出Serverless模式，利用云基础设施提供的资源池化和海量存储能力，结合传统MPP数据库技术、离在线一体化技术和Serverless技术，实现了计算存储分离、秒级扩缩容和多实例数据实时共享的特性。简介 AnalyticDB...

基本介绍

与云原生多模数据库Lindorm的关系云原生多模数据库Lindorm是阿里巴巴自主研发的多模型数据库，云数据库HBase增强版的内核由云原生多模数据库Lindorm宽表引擎提供，为了获取更新、更完善的能力，推荐直接使用云原生多模数据库Lindorm。...

PolarDB-X 2.0迁移至云原生数据仓库 AnalyticDB ...

云原生数据仓库 AnalyticDB PostgreSQL 版读写权限数据类型映射关系详情请参见结构初始化涉及的数据类型映射关系。操作步骤进入迁移任务的列表页面。登录 DMS数据管理服务。在顶部菜单栏中，单击集成与开发（DTS）。在左侧导航栏，...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

2024年

FROM_CHARSET 2024-03-21 新增MaxCompute TIMESTAMP_NTZ数据类型介绍新说明 MaxCompute 2.0新增了无时区时间戳类型（TIMESTAMP_NTZ），该类型表示不包含时区信息的日期和时间点，所有数据均基于统一的时间基准（如UTC）。相较于其他带有...

PolarDB-X 2.0迁移至MaxCompute

MaxCompute 读写权限数据类型映射关系详情请参见结构初始化涉及的数据类型映射关系。操作步骤进入迁移任务的列表页面。登录 DMS数据管理服务。在顶部菜单栏中，单击集成与开发（DTS）。在左侧导航栏，选择数据传输（DTS）>数据迁移。...

配置同步任务中的数据来源和去向

成功将数据导入分析型数据库MySQL版后，您就可以使用分析型数据库MySQL版进行数据分析。进入 DataWorks控制台，单击对应项目操作栏中的数据开发。单击左侧菜单栏中的数据开发，右键单击业务流程新建一个流程。右键单击步骤2 中新建的...

创建Oracle数据源

背景信息 Oracle是一款可移植好、可靠性好、适应高、功能强大的关系型数据库。如果您使用的是Oracle，在对接Dataphin进行数据开发时，您需要先完成Oracle数据源的创建。更多Oracle信息，请参见 Oracle官网。权限说明仅支持具备新建数据源...

HDFS概述

基本概念名称描述 NameNode 用于管理文件系统的命名空间、维护文件系统的目录结构树以及元数据信息，记录写入的每个数据块（Block）与其归属文件的对应关系。此信息以命名空间镜像（FSImage）和编辑日志（EditsLog）两种形式持久化在本地...

持久内存型

购买方式创建实例背景信息由于内存的价格相对昂贵且容量具备较大的局限性，限制了在某些场景中的规模化使用。阿里云于2018年正式开始投入持久化内存的研究和落地，成功应用于当年双11的电商商品核心集群中，大幅降低了成本，是中国首先...

数据库高级特性管理

您可以在RDS管理控制台查看或修改数据库中的各类属性，也可以手动收缩数据库事务日志和更新数据库统计信息，以优化数据库性能和提高查询效率。前提条件已创建数据库。创建方法，请参见创建数据库。实例所在地域必须在：华东1（杭州）、...

表设计最佳实践

表设计指南建议将数据信息划分为基本属性表和天气日志表，分别用于存储变化小和变化大的数据。因为天气信息的数据量巨大，在对天气日志表按照地域进行分区后，可以按照时间（例如，天）进行二级分区。此种分区方式可避免发生因某一个地点...

数据服务入门

背景信息 DataWorks数据服务作为数据库和数据应用之间的桥梁，旨在为个人、团队及企业提供全面的数据服务及共享能力，帮助用户统一管理面向阿里云内外部的API服务。数据服务已与API网关连通，支持一键发布API至API网关。数据服务与API网关...

RDS术语

本文介绍云数据库RDS中的相关名词和术语。A 安全组安全组是一种虚拟防火墙，用于控制安全组中的ECS实例的出入流量。在RDS白名单中添加安全组后，该安全组中的ECS实例就可以访问RDS实例。更多信息，请参见设置安全组。按量付费后付费，即...

大数据和信息的关系

新品推荐