什么是大数据原则小数据原则-什么是大数据原则小数据原则文档介绍内容-阿里云

预降采样

请求示例 PUT/api/database {"name":"default","downsampleRules":{ } } 查询预降采样数据预降采样数据查询的匹配原则当同时存在数据库级别规则和表级别规则时，预降采样查询数据时优先匹配表级别规则。当查询请求指定的降采样粒度与预降...

整体架构

云原生数据仓库AnalyticDB MySQL版是阿里巴巴自主研发、经过超大规模以及核心业务验证的PB级实时数据仓库。概述自2012年第一次在集团发布上线以来，AnalyticDB MySQL版至今已累计迭代发布近百个版本，支撑起集团内的电商、广告、物流、...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

数据源权限管理

什么是私有模式的数据源？哪些用户能够收回数据源的分享权限？如何检查数据源分享关系的移除、关联情况？分享数据源后，其资源组的连通状态是否会被同步分享？分享数据源后，引用过该数据源的任务关联信息是否会被同步分享？哪些角色可以...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

离线同步并发和限流之间的关系

小数据量的数据表建议配置小并发，小并发需要的执行资源比较少，有利于任务快速抢占碎片资源得到运行。由于数据量比较小执行耗时可以控制在合理的范围内。同一个数据源上同步任务，建议错峰运行，一方面可以均衡资源组的使用水位，另外也...

数据倾斜诊断

复制分布方式通常只会用在数据量小的表中，如果数据量大的表使用复制分布方式，会导致数据急剧膨胀。哈希（HASH）分布该分布方式会根据分布键HASH值将数据分布到各个计算节点上，该方式的关键在于如何选择分布键，分布键选择不正确时，...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

Catalog概述

本文为您介绍什么是Catalog（数据目录），以及如何使用Catalog查询内外部数据。基本概念内部数据：保存在StarRocks中的数据。外部数据：保存在外部数据源（例如，Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog StarRocks ...

Catalog概述

本文为您介绍什么是Catalog（数据目录），以及如何使用Catalog管理和查询内外部数据。基本概念内部数据：保存在StarRocks中的数据。外部数据：保存在外部数据源（例如Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog ...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

A100售后支持相关问题

购买数据库审计实例后，您可以通过以下操作配置数据库审计服务：启用数据库审计实例管理数据库审计实例登录数据库审计系统添加数据库实例部署Agent程序更多信息，请参见 A100快速入门。如何测试数据库审计网络连通性？数据库审计外网...

基本概念

DTS 数据传输服务（Data Transmission Service，简称DTS）支持关系型数据库（RDBMS）、非关系型数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，帮助您构建安全、可扩展、高可用的...

产品简介

支持大、小版本自动升级，方便StarRocks进行版本升级管理。增加EMR StarRocks Manager，提供了企业级的StarRocks管理能力：安全能力：支持用户及权限管理。诊断分析：支持可视化慢SQL，及SQL查询分析能力。数据管理：提供数据库、表、分区...

新建AnalyticDB for MySQL 3.0数据源

更多信息，请参见云原生数据仓库AnalyticDB MySQL版-什么是云原生数据仓库AnalyticDB MySQL版。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤在Dataphin首页，单击顶部菜单栏的 ...

创建AnalyticDB for MySQL 2.0数据源

更多云原生数仓AnalyticDB MySQL信息，请参见云原生数据仓库AnalyticDB MySQL版-什么是云原生数据仓库AnalyticDB MySQL版。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源...

A100使用指南

支持审计10个数据库实例 12,000元/月 144,000元/年企业版吞吐量峰值：30,000条SQL/秒 800万/小时入库速率 10亿条在线SQL语句存储 350亿条归档SQL语句存储支持审计25个数据库实例 20,000元/月 240,000元/年说明可以通过需要使用的数据...

新建AnalyticDB for MySQL 3.0数据源

更多信息，请参见云原生数据仓库AnalyticDB MySQL版-什么是云原生数据仓库AnalyticDB MySQL版。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源...

RDS术语

数据库在一个RDS实例下创建的逻辑单元，以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合，可以简单理解为存放数据的仓库。一个实例可以创建多个数据库，数据库在实例内的命名唯一。数据库...

一键建仓

数据管理DMS一键建仓功能可以实现一键创建实时同步的数据仓库，数据可在秒级的延迟下，同步至AnalyticDB MySQL版数据库中，帮助您更实时、准确地掌握业务情况，以便更好地进行业务分析和决策，提升业务效果。本文介绍如何在数据管理DMS中...

RDS术语

A AliPG 阿里云支持一系列兼容PostgreSQL的云数据库服务产品，这些云数据库服务采用统一的数据库内核（简称AliPG），AliPG兼容PostgreSQL开源数据库，于2015年正式商用，支持PostgreSQL主流大版本，已稳定运行多年，支撑了大量阿里巴巴集团...

RDS术语

数据库在一个RDS实例下创建的逻辑单元，以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合，可以简单理解为存放数据的仓库。一个实例可以创建多个数据库，数据库在实例内的命名唯一。数据库...

Tunnel命令常见问题

java.io.IOException:Error writing request body to server 产生原因这是上传数据到服务器时产生的异常，通常是因为上传过程中的网络连接断开或超时导致的：当您的数据源并非是本地文件，需要从数据库等地方获取时，数据在写入的过程中还...

数据服务

数据服务中的API分组的作用是什么，与API网关中的分组有什么关联？如何合理设置API分组？最多可以创建多少个API分组？什么情况下要开启API返回结果分页功能？生成API是否支持POST请求？生成API是否支持HTTPS协议？为什么数据服务无法连接...

RDS术语

数据库在一个RDS实例下创建的逻辑单元，以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合，可以简单理解为存放数据的仓库。一个实例可以创建多个数据库，数据库在实例内的命名唯一。数据库...

RDS术语

数据库在一个RDS实例下创建的逻辑单元，以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合，可以简单理解为存放数据的仓库。一个实例可以创建多个数据库，数据库在实例内的命名唯一。数据库...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

产品概述

具有丰富的数据可视化编辑能力、专业的地理信息可视化展示能力和灵活开发的部署方式等特点，详情请参见 什么是DataV数据可视化。DataV-TwinFabric 孪生仿真 DataV-TwinFabric孪生仿真平台是阿里云为数字孪生领域提供的一站式开发平台，旨在...

索引优化

在当您想要建索引时应该需要考虑以下几点：您的查询负载：索引可以有效地提高返回单条或者小数据结果集的查询，比如TP类的查询。压缩表或者适合使用稀疏索引的范围查询：索引可以提高压缩的AO/AOCS表的查询效率，尤其是在进行范围查询时...

数据治理

数据地图为什么数据地图数据总览页存储量和存储趋势图相差较大？数据地图血缘展示延迟问题数据地图新建表搜不到当前表业务逻辑变更如何通知下游？哪些类型的Hive表支持在数据地图中预览？数据保护伞数据保护伞为什么有时候查询脱敏有...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

冷数据归档常见问题

冷数据文件的格式是什么？目前支持CSV、IBD 和ORC格式。如何判断当前表或分区是否归档成功？归档完成后，您可以通过以下两种方式来查看表或分区是否归档成功：执行 SHOW CREATE TABLE table_name;命令查看表结构信息，以此来确认表或者分区...

何时选择LIST DEFAULT HASH分区

例如，对于多租户的业务系统，每个租户产生的用户数据量不均衡，您可以把大数据量的租户按照LIST规则分区，然后中小数据量的租户按照HASH规则分成多个分区，如下：租户ID 数据量分区大客户1 3000万 p1 大客户2 2600万 p2 大客户3 2400万 ...

什么是大数据原则小数据原则

新品推荐