大数据是什么公司吗-大数据是什么公司吗文档介绍内容-阿里云

常见问题

支持的数据库部署位置（接入方式）阿里云实例有公网IP的自建数据库通过数据库网关DG接入的自建数据库通过云企业网CEN接入的自建数据库 ECS上的自建数据库通过专线/VPN网关/智能接入网关接入的自建数据库阿里云实例通过数据库网关DG接...

数据库代理常见问题

数据库代理是什么架构？有故障切换机制吗？代理个数和代理规格是什么关系？代理个数和代理地址个数有关系吗？数据库代理的性能会随着代理地址的增多而提升吗？数据库代理对用户的连接数有限制吗？使用数据库代理地址连接时报超时错误怎么办...

恢复全量数据

如果您拥有原实例的数据备份和日志备份，可以将其恢复到新实例中，可用于误操作后恢复以及分析历史数据等场景。前提条件原实例需要满足如下条件：实例运行状态为运行中且没有被锁定。当前没有进行中的迁移任务。已完成备份。RDS默认有...

RDS术语

M MaxCompute 大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的TB/PB级数据仓库解决方案，提供了完善的数据导入方案以及多种经典的分布式计算模型，能够快速地解决海量数据计算问题。通过数据集成服务，可将RDS数据导入...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

X-Engine简介

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

创建备份计划

您可以通过数据库备份DBS 控制台或API创建备份计划，用于对数据库进行备份与恢复。本文介绍通过控制台创建DBS备份计划的方法。如需了解DBS是否支持备份恢复您的数据库，以及各类数据库备份恢复的具体粒度等，请参见支持的数据库引擎与...

常见问题

如果实时同步延迟较大（延迟大于5秒），请根据您的业务场景选择合适的优化方式：数据基本没有更新，同时数据是整行写入的（一行数据不会分批次写入）：请联系Lindorm技术支持（钉钉号：s0s3eg3）修改配置。每次写入过程中，不做并发检查，...

常见问题

本文为您介绍数据集成任务常见问题。资源组操作及网络连通在做离线同步时，我们需要先了解哪些DataWorks及其网络能力？同步ECS自建的数据库的数据时，如何保障数据库与DataWorks的网络连通？数据库和DataWorks不在同一个地域（Region）下...

创建GreenPlum数据源

背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

创建GreenPlum数据源

背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、...

基于Delta lake的一站式数据湖构建与分析实战

数据湖计算与分析相比于数据仓库，数据湖以更开放的方式对接多种不同的计算引擎，如传统开源大数据计算引擎Hive、Spark、Presto、Flink等，同时也支持云厂商自研的大数据引擎，如阿里云MaxCompute、Hologres等。在数据湖存储与计算引擎...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

数据源权限管理

本文为您汇总数据源权限管理相关的问题。哪些角色可以管理数据源的权限？是否支持再次分享已被分享的数据源？数据源的创建者是否有权控制该数据源？什么是私有模式的数据源？哪些用户能够收回数据源的分享权限？如何检查数据源分享关系的...

DML操作常见问题

如果表数据量较大，如何删除非分区表中的重复数据？执行INSERT操作过程中出现错误，会损坏原有数据吗？不会损坏原有数据。MaxCompute满足原子性，INSERT操作执行成功则更新数据，INSERT操作执行失败则回滚数据。执行INSERT INTO或INSERT ...

常见问题

每种开发语言通过SDK连接云数据库ClickHouse对应的端口是什么？Go、Python语言对应推荐什么SDK？如何处理客户端工具连接集群时报错：connect timed out？为什么MySQL、HDFS、Kafka等外表无法连通？为什么程序无法连接ClickHouse？如何处理...

导入与导出

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

离线同步常见问题

数据同步原则：来源端数据源的数据要能写入目的端数据源（来源端和目的端类型需要匹配，字段定义的大小需要匹配），即源端数据类型需要与写端数据类型匹配，源端是VARCHAR类型的数据不可写到INT类型的目标列中；目标端的数据类型定义的大小...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

一键建仓

数据管理DMS一键建仓功能可以实现一键创建实时同步的数据仓库，数据可在秒级的延迟下，同步至AnalyticDB MySQL版数据库中，帮助您更实时、准确地掌握业务情况，以便更好地进行业务分析和决策，提升业务效果。本文介绍如何在数据管理DMS中...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

高效数据治理实施指南

步骤一：明确成本治理重点，规划数据治理工作成本治理工作的起始阶段，通常需要治理工作负责人建立一个治理框架，帮助其了解成本管理的现状，明确阶段性规划里，要治理的重点方向是什么，进而确认如何治理，以及怎样衡量治理的成功或失败...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

常见问题

DAS企业版 V3超出最近7天的数据，采用的存储方式是冷数据存储，相较DAS企业版 V1数据的存储方式，数据没有全文索引等信息，并且底层采用snappy对数据进行高效压缩，所以数据量最多可降低为旧版的30%，从而极大降低了存储成本。如何查看企业...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

概述

数据传输是 OceanBase 数据库提供的一种支持同构或异构数据源与 OceanBase 数据库之间进行数据交互的服务，具备在线迁移存量数据和实时同步增量数据的能力。产品功能数据传输提供可视化的集中管控平台，您只需要进行简单的配置即可实时...

数据治理

数据地图为什么数据地图数据总览页存储量和存储趋势图相差较大？数据地图血缘展示延迟问题数据地图新建表搜不到当前表业务逻辑变更如何通知下游？哪些类型的Hive表支持在数据地图中预览？数据保护伞数据保护伞为什么有时候查询脱敏有...

新建AnalyticDB for MySQL 3.0数据源

通过创建AnalyticDB for MySQL 3.0数据源能够实现Dataphin读取AnalyticDB for MySQL 3.0的业务数据或向AnalyticDB for MySQL 3.0写入数据。本文为您介绍如何创建AnalyticDB for MySQL 3.0数据源。背景信息云原生数据仓库AnalyticDB ...

新建AnalyticDB for MySQL 3.0数据源

通过创建AnalyticDB for MySQL 3.0数据源能够实现Dataphin读取AnalyticDB for MySQL 3.0的业务数据或向AnalyticDB for MySQL 3.0写入数据。本文为您介绍如何创建AnalyticDB for MySQL 3.0数据源。背景信息云原生数据仓库AnalyticDB ...

创建AnalyticDB for MySQL 2.0数据源

更多云原生数仓AnalyticDB MySQL信息，请参见云原生数据仓库AnalyticDB MySQL版-什么是云原生数据仓库AnalyticDB MySQL版。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源...

Catalog概述

本文为您介绍什么是Catalog（数据目录），以及如何使用Catalog管理和查询内外部数据。基本概念内部数据：保存在StarRocks中的数据。外部数据：保存在外部数据源（例如Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog ...

内表数据源

本文为您介绍什么是内表数据源（Default Catalog），以及如何使用Default Catalog查询StarRocks内部数据。Default Catalog StarRocks 2.3及以上版本提供了Internal Catalog（内部数据目录），用于管理StarRocks的内部数据。每个StarRocks...

Catalog概述

本文为您介绍什么是Catalog（数据目录），以及如何使用Catalog查询内外部数据。基本概念内部数据：保存在StarRocks中的数据。外部数据：保存在外部数据源（例如，Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog StarRocks ...

简介

HBase Ganos是什么 HBase Ganos是阿里云推出的一款包含管理空间几何数据、时空轨迹、专题栅格、遥感影像的时空大数据引擎系统。系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

数据服务

数据服务中的API分组的作用是什么，与API网关中的分组有什么关联？如何合理设置API分组？最多可以创建多少个API分组？什么情况下要开启API返回结果分页功能？生成API是否支持POST请求？生成API是否支持HTTPS协议？为什么数据服务无法连接...

数据建模：智能数据建模

智能数据建模是阿里云DataWorks自主研发的智能数据建模产品，沉淀了阿里巴巴十多年来数仓建模方法论的最佳实践，包含数仓规划、数据标准、维度建模及数据指标四大模块，帮助企业在搭建数据中台、数据集市建设过程中提升建模及逆向建模的...

大数据是什么公司吗

新品推荐