大数据下的世界-大数据下的世界文档介绍内容-阿里云

表设计规范

单个分区中数据量较大的情况下，MaxCompute执行任务时会进行分片处理而不影响分区裁剪的优势。单个分区中文件数较多时，会影响MaxCompute Instance数量，造成资源浪费和SQL性能的下降。采用多级分区时，建议先按日期分区，然后按交易类型...

他云/自建数据库录入

具体权限说明如下：如需管理实例下的所有数据库，授权范围为整个实例的所有库。如需管理实例的单个或多个数据库，授权范围可指定具体的库。如需进行实例的增、删、改、查及表结构的修改等操作，需要给账号授予足够的DML权限。如需进行实例...

某网约车公司车辆轨迹数据

解决方案在原有的架构上引入了阿里云数据库，并将全量数据写到云原生多模数据库 Lindorm 中，同时增量数据通过Kafka、Spark等实时同步到云原生多模数据库 Lindorm，这样解决了客户线下数据库数据过大的问题。客户需要存储最近3年的数据...

数据服务入门

数据源名称选择需要基于该类型数据源下的哪个数据源生成API。本文示例选择步骤一：创建数据源并配置网络连通性创建的 rds_workshop_log 数据源。数据源环境标准模式工作空间支持选择访问开发或生产环境数据源，两种环境的区别，详情请...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

概述

向量数据库简介在现实世界中，绝大多数的数据都是以非结构化数据的形式存在的，如图片，音频，视频，文本等。这些非结构化数据随着智慧城市、短视频、商品个性化推荐、视觉商品搜索等应用的出现而爆发式增长。为了能够处理这些非结构化...

管理数据

更多操作批量管理数据域需要大规模调整多个数据域下的资产时，您可以使用批量导入功能。通过下载并修改数据域模板文件，快速管理数据域。仅支持阿里云账号和具有 AliyunYundunSDDPFullAccess 权限的RAM用户使用该功能。登录数据安全中心...

JindoFS实战演示

视频发布时间描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

冷热分离

背景信息在海量大数据场景下，一张表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低，同时这部分历史数据体量非常大，比如订单数据或者监控数据，降低这部分数据的存储成本将会极大的节省企业的成本。因此，如何以极简的...

数据治理中心概述

量化评估：健康分健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据，使用数据处理及机器学习等技术，对各类型数据进行综合处理和评估，通过个人、工作空间维度客观呈现数据资产状态的综合...

表设计最佳实践

在单个数据通道写入量较大的情况下，应该按照时间进行分区设计。在采集通道数据量较小的情况下，适合采取非分区表设计，将终端类型和采集时间设计成标准列字段。采用DataHub进行数据写入时，应该合理规划Shard数量，避免出现由于Shard过多...

DBS沙箱功能概览

背景信息在海量数据场景下，传统数据库备份服务面临两大越来越严重的困难：存储成本：为了保障数据恢复点目标（Recovery Point Objective，RPO），周期性的全量和增量备份产生大量重复数据，导致存储成本过高。使用成本：您必须待数据完成...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

数据源管理

本文介绍如何管理数据源。...删除数据选择任一数据，单击图标下的移除数据源，可直接删除当前数据。缩放至图层选择任一数据，单击图标下的缩放至图层，可将当前数据展示的地图数据展示到当前屏幕的中心位置方便查看。

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

快速入门

作为学院派关系型数据库管理系统的鼻祖，它的优点主要集中在对SQL规范的完整实现以及丰富多样的数据类型支持，包括JSON数据、IP数据和几何数据等，而大部分商业数据库都不支持这些数据类型。除了完美支持事务、子查询、多版本控制（MVCC）...

授权与回收表权限

查看数据表权限详情：您可单击数据对象的表名或操作列下的图标，查看数据表权限详情，请参见查看表权限列表。查看表权限列表区域参数 ① 基础信息区为您展示数据表的表名、表所在项目/数据板块、表环境、数据负责人信息。② 筛选及...

授权与回收表权限

查看数据表权限详情：您可单击数据对象的表名或操作列下的图标，查看数据表权限详情，请参见查看表权限列表。查看表权限列表区域参数 ① 基础信息区为您展示数据表的表名、表所在项目/数据板块、表环境、数据负责人信息。② 筛选及...

升级数据库大版本

本文介绍云数据库MongoDB支持升级的数据库大版本以及如何升级数据库大版本。注意事项升级分片集群实例的数据库大版本时，实例的协议类型需为 MongoDB协议。升级采用轮转升级的方式进行，升级过程中会自动对实例进行2~3次重启，请在业务低...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎，为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能描述 Dataphin全托管全托管又称公共云多租户模式，只需购买...

数据地图概述

数据地图是在元数据基础上提供的企业数据目录管理模块，涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。数据地图可以帮助您更好地查找、理解和使用数据。元数据采集与接入 MaxCompute数据如果您使用了...

我的数据

查看我的收藏您在查看表详情时，可以通过表详情页的收藏按钮，快速将表加入到我的收藏，详情请参见查看表详情，添加收藏后，您可以通过我的数据页面下的我的收藏分组中进行查看。您可以通过下面两种方式取消收藏表，取消收藏后，将...

添加宜搭数据源

宜搭是阿里巴巴自研的低代码应用构建平台，您可以通过可视化拖拽的方式，快速完成数据应用的搭建。本文为您介绍在DataV中添加和使用宜搭数据源的方法，以及相关参数配置说明。前提条件已通过钉钉登录宜搭控制台创建一个宜搭应用数据表单...

数据归档概述

当线上数据库中的历史数据（访问率很低的数据）越来越多，占用的存储越来越大，以至于会影响数据库的查询性能与业务运转，此时您可以使用数据管理DMS 的数据归档功能，周期性地将指定表的数据归档至其他数据库或存储服务中。同时，该功能...

添加宜搭数据源

宜搭是阿里巴巴自研的低代码应用构建平台，您可以通过可视化拖拽的方式，快速完成数据应用的搭建。本文为您介绍在DataV中添加和使用宜搭数据源的方法，以及相关参数配置说明。前提条件已通过钉钉登录宜搭控制台创建一个宜搭应用数据表单...

配置SQLServer数据源

此连接串中的Database为本数据源的默认数据库，但在配置同步任务时，您可以使用相应RDS实例下所有的数据库。用户名登录数据库的用户名。密码登录数据库的密码。选择资源组连通性类型为数据集成。在资源组列表，单击相应资源组后的 ...

预览物理表数据

数据查询提供不同数据资源的预览，可为开发人员、数据应用人员和数据分析人员提供全面直观的数据呈现。...刷新数据：单击页面下方的刷新结果，可以对当前云计算资源下的物理表列表结构进行刷新，以便查看最新的物理表情况。

预览物理表数据

数据查询提供不同数据资源的预览，可为开发人员、数据应用人员和数据分析人员提供全面直观的数据呈现。...刷新数据：单击页面下方的刷新结果，可以对当前云计算资源下的物理表列表结构进行刷新，以便查看最新的物理表情况。

自定义RDBMS数据库及同步数据

在新建数据源对话框中，选择自定义数据源下的 test_rdbms_mysql 数据源。在新建test_rdbms_mysql数据源对话框，配置参数。参数描述数据源名称填写数据源名称为 test_rdbms_mysql。数据源描述填写数据源的简单描述。数据源配置 ...

自定义RDBMS数据库及同步数据

在新建数据源对话框中，选择自定义数据源下的 test_rdbms_mysql 数据源。在新建test_rdbms_mysql数据源对话框，配置参数。参数描述数据源名称填写数据源名称为 test_rdbms_mysql。数据源描述填写数据源的简单描述。数据源配置 ...

申请、续期和交还表权限

② 列表区为您展示数据对象、数据板块、表所在项目、权限账号、提交时间、申请状态信息，同时，您可以单击操作列下的审批流程，查看该数据表的审批流程。审批流程：查看该数据表的审批权限，详情请参见查看我发起的任务。

申请、续期和交还表权限

② 列表区为您展示数据对象、数据板块、表所在项目、权限账号、提交时间、申请状态信息，同时，您可以单击操作列下的审批流程，查看该数据表的审批流程。审批流程：查看该数据表的审批权限，详情请参见查看我发起的任务。

数据模型

基本概念物联网、应用监控、工业互联网等典型的时序场景下，数据源（Data Source）通常按一定的周期持续产生时序数据，一条时序数据由Tag、Timestamp、Field等元素共同来描述，具有相同特征的一类数据存放在同一张表中，表的时序数据元素...

场景：跨账号创建数据源

说明您可根据跨账号添加的数据源在A工作空间的使用场景，提前为RAM角色授权与相关权限，例如，若要在A工作空间查询B工作空间数据源下的表，需确保数据源配置的RAM角色已拥有该表的SELECT权限。账号A：使用账号B的用户信息创建数据源说明 ...

产品概述

阿里云流数据处理平台数据总线DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布(Publish)，订阅（Subscribe）和分发功能，让您可以轻松构建基于流式数据的分析和应用。数据总线 DataHub服务可以对各种移动设备，应用...

CDH Hive数据抽样采集器

选择集群后，如果不选择数据库，默认对所有数据库下的表进行数据抽样。阿里云主账号，拥有 AliyunDataWorksFullAccess 权限的子账号可以进行采集。CDH Hive新增、变更、删除表后需要重新进行数据抽样采集。目前仅支持手动采集。新建采集器 ...

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

大数据下的世界

新品推荐