大数据涉及的技术-大数据涉及的技术文档介绍内容-阿里云

数据归档

通过数据归档OSS功能，用户能够将低频访问、数据量大的表转储至OSS，并通过原生InnoDB的访问方式去读取冷表数据。数据归档DDL操作如下：归档 ALTER TABLE$table_name ENGINE_ATTRIBUTE='{"OSS":"Y"}';取回 ALTER TABLE$table_name ENGINE_...

识别任务说明

扫描速度不同类型数据库的扫描速度说明如下，该扫描速度仅供参考：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据（TableStore、MaxCompute等）：对于较大的数据库（即表数量大于1000个），扫描速度为1000列/分钟。...

功能特性

配置管理数据保护敏感数据管理 DMS的敏感数据保护能力能根据所选的敏感数据扫描模板、敏感数据识别模型以及脱敏算法对数据进行脱敏处理，以避免敏感数据滥用，有效保护企业的敏感数据资产，防止数据泄露造成企业经营资金损失或罚款。...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

应用场景

数据传输服务DTS（Data Transmission Service）支持数据迁移、数据订阅和数据实时同步功能，帮助您实现多种典型应用场景。不停机迁移数据库传输方式：数据迁移为了保证数据的一致性，传统的迁移过程需要您在迁移数据时停止向源数据库写入...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

SelectDB数据源

通过私网连接：私网连接具有较大的带宽和较稳定的连接，因此推荐使用私网连接。在使用私网连接之前，需要按照连接设置文档，创建一个终端节点。在终端节点创建完成且状态从创建中变为可用，连接状态从连接中变为已连接后，您还...

添加TableStore数据源

如果值为正序（FORWARD），则起始主键必须小于结束主键，返回的行按照主键由小到大的顺序进行排列。如果值为逆序（BACKWARD），则起始主键必须大于结束主键，返回的行按照主键由大到小的顺序进行排列。例如同一表中有两个主键A和B，A。如...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

冷热分离

背景信息在海量大数据场景下，一张表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低，同时这部分历史数据体量非常大，比如订单数据或者监控数据，降低这部分数据的存储成本将会极大的节省企业的成本。因此，如何以极简的...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

表设计最佳实践

表设计指南建议将数据信息划分为基本属性表和天气日志表，分别用于存储变化小和变化大的数据。因为天气信息的数据量巨大，在对天气日志表按照地域进行分区后，可以按照时间（例如，天）进行二级分区。此种分区方式可避免发生因某一个地点...

文档修订记录

创建数仓分层配置及使用数仓分层检查器 2023.3.16 新增功能数据建模 DataWorks智能数据建模联合具备丰富行业建模经验的数据架构师，总结阿里云百万用户最全面的业务场景，结合阿里巴巴技术创新能力，提供零售电子商务、金融、制造等多个...

技术发展趋势

传统大数据技术可以满足此类需求，但其发散的技术栈，不统一的使用习惯，都难以在广大企业内落地使用。因此急需统一、标准化的技术解决方案。数据加速上云 Gartner预测到2023年，所有数据库中75%将放在云平台上。企业机构正在云中部署新的...

安全白皮书概述

Dataphin面向各行各业大数据建设、管理及应用诉求，一站式提供从数据接入到数据消费全链路的智能数据建设与资产治理的大数据能力，包括产品、技术和方法论等，可帮助企业一站式构建生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

亿海蓝-航运大数据的可视化案例

整体系统架构方案如下图所示：航运数据可视化分析系统架构图如下：业务价值通过阿里云产品的支持，缩短了业务的技术实现周期，降低了运维投入。Ganos on Lindorm高性能查询指标满足了业务上低延迟流畅显示的要求。不同于轨迹数据，航线...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

概述

Flink（VVR）完全兼容开源Flink，相关内容请参见如下文档：DataStream API Table API&SQL Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink主要用于以下...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

轮播页面

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎，为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能描述 Dataphin全托管全托管又称公共云多租户模式，只需购买...

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

产品功能

高效压缩存储 TSDB 使用高效的数据压缩技术，将单个数据点的平均使用存储空间降为1~2个字节，可以降低90%存储使用空间，同时加快数据写入的速度。时序数据计算能力 TSDB 提供专业全面的时序数据计算函数，支持降采样、数据插值和空间聚合...

数据导入方式介绍

为满足多样化的数据导入需求，云原生数据仓库AnalyticDB MySQL版提供了多种数据导入方式，包括：通过外表导入数据、使用DataWorks导入数据和利用JDBC通过程序导入数据等。本文介绍各导入方式的特性及适用场景，帮助您选择正确的数据导入...

引擎功能

高效时序存储技术时序数据压缩 Lindorm时序引擎使用高效的数据压缩技术，将单个数据点的平均使用存储空间降为1~2个字节，可以降低90%存储使用空间，同时加快数据写入的速度。冷数据归档能力 Lindorm时序引擎支持将长期存储的冷数据归档到...

ListDoctorHiveTables-批量获取Hive表分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。coldDataSize:冷数据的数据量大小。冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据数的据量大小。极冷数据指的是 90 日以内...

我是安全管理员

解决方案数据归档概述数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建...

什么是备份数据量

本文介绍数据库备份DBS中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份DBS业务场景下，含有常见以下几个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念说明数据库...

我是DBA

解决方案数据归档数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建工单...

升级数据库大版本

本文介绍云数据库MongoDB支持升级的数据库大版本以及如何升级数据库大版本。注意事项升级分片集群实例的数据库大版本时，实例的协议类型需为 MongoDB协议。升级采用轮转升级的方式进行，升级过程中会自动对实例进行2~3次重启，请在业务低...

我是管理员

数据归档数据归档功能定时将大表的数据归档至其他数据库，支持源表数据删除、表空间整理回收等功能。数据库迁移通过创建工单实现数据库迁移、校验和清理的闭环操作。运维管理通知管理可根据您的业务需求，订阅不同功能模块的消息事件，...

列存索引如何实现高效数据过滤

基本原理与方法分区信息剪枝 IMCI的分区剪枝技术是指在查询时根据分区键的条件来过滤不需要查询的分区，从而减少查询的数据量和提高查询效率的技术。IMCI支持的分区类型包括RANGE、LIST、HASH三种。其中，RANGE和LIST分区会把数据表分成...

大数据涉及的技术

新品推荐