大数据用到的技术-大数据用到的技术文档介绍内容-阿里云

数据标准

数据字典管理：支持创建并维护逻辑表中使用的数据字典，方便用户在定义数据元或维度属性时进行数据字典引用，支持数据字典物理化、数据字典导入、导出，方便数据字典使用与跨项目复制。质量校验函数：支持质量检测函数自定义，方便用户在...

分区表常见问题

使用 PolarDB MySQL版数据库，单张表数据量太大，想使用分表，如何使用？建议使用分区表。分区表的更多介绍请参见分区表概述。PolarDB MySQL版中如果单表数据记录条数达到亿级，是否需要做分库分表？还是选择分区表？建议使用分区表。...

目标数据库连接性检查

为保障数据迁移任务的顺利执行，在预检查阶段检查DTS服务器是否能够连通要迁移的目标数据库。本文将介绍目标数据库连接性检查失败可能的原因及修复方法。当目标数据库连接性预检查失败时，可能是以下几种原因。数据库账号或数据库密码不...

DataWorks On Hologres使用说明

将工作空间成员添加至Hologres引擎实例及DataWorks绑定的Hologres数据源中，并为生产环境执行账号授予较大的数据库权限。工作空间添加成员为工作空间成员配置Hologres引擎权限权限控制 DataWorks为您提供了产品级与模块级的权限控制，您...

Quick BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入阿里云Quick BI，对海量数据进行实时在线分析服务，同时支持拖拽式操作和丰富的可视化效果，帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。本文为您介绍如何使用Quick BI连接...

DLF+EMR之统一权限最佳实践

本文结合具体业务场景，为您介绍如何使用DLF+EMR两个产品实现数据湖上统一权限的最佳实践。背景说明元数据和数据权限是DLF产品提供的数据湖构建所需的基础能力，数据湖上引擎及产品。通过DLF提供的统一元数据视图访问湖上数据，解决湖上...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

配置SQLServer数据源

SQLServer数据源为您提供读取和写入SQLServer双向通道的功能，您可以通过向导模式和脚本模式配置同步任务。前提条件在配置SQLServer数据源之前，您需要在RDS for SQLServer端做好以下准备工作。创建RDS for SQLServer实例，请参见快速...

适配组件数据

背景信息本文以使用静态数据源为例，因此可以直接在组件的数据配置区域粘贴准备好的数据。如果您的数据源为 CSV文件、数据库等其他类型的数据，需要首先添加数据源。如果您需要使用的数据源为 API，直接在数据配置栏输入API即可。具体...

数据质量评估标准

一致性一致性通常体现在跨度很大的数据仓库中。例如，某公司有很多业务数仓分支，对于同一份数据，在不同的数仓分支中必须保证一致性。从在线业务库加工到数据仓库，再到各个数据应用节点，用户ID必须保持同一种类型，且长度也要保持一致...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

组件数据源配置

本文介绍如何进行配置组件数据和设置组件数据源。前提条件已登录DataV控制台已进入画布编辑器页面配置组件数据单击左侧导航栏的组件库页签，进入组件库管理页面。单击任一组件，添加到画布中。选中组件后，查看右侧配置面板。例如 ...

场景管理器

图表样式场景管理器是3D地球的子组件，支持独立的样式、数据和交互配置，能够使用数据定义镜头位置，通过移动和缩放的动效展示球体的不同位置。样式面板搜索配置：单击样式面板右上角的搜索配置项图标，可在搜索配置面板中输入您需要...

数据归档

通过数据归档OSS功能，用户能够将低频访问、数据量大的表转储至OSS，并通过原生InnoDB的访问方式去读取冷表数据。数据归档DDL操作如下：归档 ALTER TABLE$table_name ENGINE_ATTRIBUTE='{"OSS":"Y"}';取回 ALTER TABLE$table_name ENGINE_...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

登录数据库

操作步骤在DMS实例列表登录数据库使用该方式登录数据库前，需要确保您的数据库实例已录入DMS。更多信息，请参见云数据库录入。登录数据管理DMS 5.0。在首页左侧的未登录实例列表中，选择并右键单击目标实例。说明数据库实例有未登录...

SQL查询

如果需要快速地对数据进行查询与分析，您可以使用SQL语句查询MaxCompute、EMR Hive、Hologres等数据源。本文为您介绍如何通过SQL语句查询数据源。支持查询的数据源 SQL查询支持的数据源包含MaxCompute、Hologres、EMR Hive、EMR Spark SQL...

添加TableStore数据源

如果值为正序（FORWARD），则起始主键必须小于结束主键，返回的行按照主键由小到大的顺序进行排列。如果值为逆序（BACKWARD），则起始主键必须大于结束主键，返回的行按照主键由大到小的顺序进行排列。例如同一表中有两个主键A和B，A。如...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

应用场景

数据传输服务DTS（Data Transmission Service）支持数据迁移、数据订阅和数据实时同步功能，帮助您实现多种典型应用场景。不停机迁移数据库传输方式：数据迁移为了保证数据的一致性，传统的迁移过程需要您在迁移数据时停止向源数据库写入...

批量或异步插入数据

因为创建的数据分区会在后台合并成更大的分区（以优化读取查询的数据），每秒发送太多的插入查询可能会导致后台合并无法跟上新分区的数量。然而，当您使用异步插入数据时，可以使用更高速的插入查询速率。异步插入数据的详细信息，请参见 ...

使用DataWorks

当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的数据导出至其他数据源。背景信息数据集成的导出方式有如下两种：向导模式：创建离线同步节点后，...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

冷热分离

背景信息在海量大数据场景下，一张表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低，同时这部分历史数据体量非常大，比如订单数据或者监控数据，降低这部分数据的存储成本将会极大的节省企业的成本。因此，如何以极简的...

文档更新动态（2022年之前）

新功能网络连通解决方案 2021年08月24日数据服务：支持数据服务模块的数据查询加速、支持的数据源类型和版本拓展为了满足对数据查询速度有要求的业务场景，Dataphin支持为项目添加加速计算源，且完成Dataphin数据源开发后，您可以手动...

存储加密

当MaxCompute项目中存有敏感信息如个人身份信息、财务记录、健康记录等，开启数据存储加密可保护这些数据不被未授权者访问。MaxCompute支持通过密钥管理服务KMS（Key Management Service）对数据进行加密存储，提供数据静态保护能力，满足...

近实时数仓数据入仓介绍

为满足业务对数据仓库中高度时效性数据的需求，MaxCompute基于Transaction Table2.0实现了分钟级近实时数据写入和主键更新功能，显著提升了数据仓库的数据更新效率。数据写入场景面对具有突发性和热点性的客户行为日志，如评论、评分和点...

索引优化

并且对于BI报表类查询，通常会返回很大的数据集，使用索引在这种场景并不一定有加速查询的效果。在使用 AnalyticDB PostgreSQL版时，首先应该尝试在没有增加任何索引的情况下执行您的查询。索引通常都是更适合于TP场景的，只返回一条记录...

产品优势

AnalyticDB MySQL版提供融合数据库、大数据技术于一体的云原生企业级数据仓库服务，高度兼容MySQL，支持毫秒级更新，亚秒级查询。无论是数据湖中的非结构化或半结构化数据，还是数据库中的结构化数据，您都可使用 AnalyticDB MySQL 构建...

什么是数据管理DMS

AnalyticDB MySQL版：云原生数据仓库AnalyticDB MySQL版是融合数据库、大数据技术于一体的云原生企业级数据仓库服务。AnalyticDB MySQL版支持高吞吐的数据实时增删改、低延时地实时分析复杂ETL（Extract Transform Load），兼容上下游生态...

引擎功能

高效时序存储技术时序数据压缩 Lindorm时序引擎使用高效的数据压缩技术，将单个数据点的平均使用存储空间降为1~2个字节，可以降低90%存储使用空间，同时加快数据写入的速度。冷数据归档能力 Lindorm时序引擎支持将长期存储的冷数据归档到...

产品功能

高效压缩存储 TSDB 使用高效的数据压缩技术，将单个数据点的平均使用存储空间降为1~2个字节，可以降低90%存储使用空间，同时加快数据写入的速度。时序数据计算能力 TSDB 提供专业全面的时序数据计算函数，支持降采样、数据插值和空间聚合...

混合存储型（已停售）

使用混合存储型，将所有课程信息存储到磁盘，访问量大的课程和题库数据存储到内存并常驻内存，保证高频访问数据的读写性能，实现高性能与高性价比的有机结合。典型业务场景的示例如下：场景1：使用开源Redis集群存储了100 GB的数据，但高峰...

ECS实例说明

大数据量（10 TB或以上）情况下，推荐使用大数据机型，可以获得极高的性价比。重要当Core核心实例使用本地盘时，HDFS数据存储在本地盘，需要您自行保证数据的可靠性。Task计算实例用于补充集群的计算能力，可以使用除大数据型外的所有...

概述

数据内容安全管理安全中心提供的数据分级分类、敏感数据识别、数据访问审计、数据源可追溯等功能，在处理业务流程的过程中，能够快速及时识别存在安全隐患的数据，保障了数据内容的安全可靠，详情请参见数据保护伞。安全诊断的最佳实践 ...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

数据订阅操作指导

数据订阅功能可以帮助您获取数据库的实时增量数据，适用于缓存更新策略、业务异步解耦、异构数据源的数据实时同步和复杂ETL的数据实时同步等多种业务场景。本文介绍数据订阅功能的具体使用流程，帮助您快速掌握创建、监控、管理数据订阅...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

通过RAM角色授权模式配置数据源

因此，云账号负责人可以为大数据团队创建自定义角色 BigDataOssRole，并限制可以使用角色的人员为大数据团队的相关人员，实现团队间的权限管控。创建自定义角色。本案例示例创建可信实体为阿里云账号、角色名称为 BigDataOssRole 的自定义...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

大数据用到的技术

新品推荐