大数据的发展历史简述-大数据的发展历史简述文档介绍内容-阿里云

主备方案介绍

A：存储的是数据D1和数据D2中时间戳更大的数据，数据在LTS同步过程中不会改变数据原有的时间戳，一般情况下存储的是数据D2，但是由于主备实例不同可能存在时间戳毫秒级的时间差异造成数据D2的时间戳比数据D1的时间戳小，在这种情况下存储的...

Spark概述

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

查看数据开发操作记录

在数据开发DataStudio界面中，您可在操作历史界面通过操作类型、操作人、操作时间进行筛选，查看人员在当前工作空间中的操作记录。使用说明仅支持查看DataStudio中以下几类操作记录：任务责任人变更操作、任务调度属性变更操作、任务及...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

Doris概述

并且这两类进程通过一致性协议来保证服务的高可用和数据的高可靠，这种高度集成的架构设计极大的降低了一款分布式系统的运维成本。从以下五个方面介绍Doris技术：在使用接口方面，Doris采用MySQL协议，高度兼容MySQL语法，支持标准SQL，您...

概述

DAS的诊断基于单个实例，会提供问题详情及相应的解决方案，为您维护实例带来极大的便利。MyBase MySQL支持的实例版本版本系列 MySQL 5.6 高可用版 MySQL 5.7 高可用主从版 MySQL 8.0 高可用主从版 MyBase MySQL使用流程创建MySQL集群 ...

MaxCompute近实时增全量一体化架构介绍

数据自动治理优化存在的问题 Transactional Table 2.0支持分钟级近实时增量数据导入，高流量场景下可能会导致增量小文件数量膨胀，尤其是桶数量较大的情况，从而引发存储访问压力大、成本高，数据读写I/O效率低下等问题。如果Update和...

HDFS概述

HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写，特别是读多写少的场景...

添加数据源概述

数据源类型数据源说明数据库类说明如果您在其它地域，或者没有使用阿里云数据库，想连接自建数据库，那就需要暴露数据库的公网IP进行连接。DataV当前不支持IP白名单，如果您担心安全性问题，可以使用阿里云提供的数据库连接代理工具来...

Quick BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入阿里云Quick BI，对海量数据进行实时在线分析服务，同时支持拖拽式操作和丰富的可视化效果，帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。本文为您介绍如何使用Quick BI连接...

使用MaxCompute控制台（离线）

MaxCompute控制台提供数据上传功能，支持您将本地文件或阿里云对象存储服务OSS中的文件数据离线（非实时）上传至MaxCompute进行分析处理及相关管理操作。使用限制仅支持基于本地文件或阿里云对象存储OSS 上传数据，具体如下。本地文件...

常见问题

MaxCompute提供数据备份与恢复功能，MaxCompute会自动备份数据的历史版本（被删除或修改前的数据）并保留一定时间，您可以对保留周期内的数据进行快速恢复，避免因误操作丢失数据。更多备份恢复信息，请参见备份与恢复。不同项目的表是否...

文档更新动态（2022年之前）

新功能网络连通解决方案 2021年08月24日数据服务：支持数据服务模块的数据查询加速、支持的数据源类型和版本拓展为了满足对数据查询速度有要求的业务场景，Dataphin支持为项目添加加速计算源，且完成Dataphin数据源开发后，您可以手动...

数据集成概述

离线（批量）的数据通道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（Reader）、数据写入插件（Writer），并基于此框架设计一套简化版的中间数据传输格式，从而实现任意结构化、半结构化数据源之间数据传输。...

分区表常见问题

例如，预计未来的数据量较大需要分区，建议不要等到数据量增长到大于10 TB时才转分区表，您可以提前规划分区（5 TB的数据量在线转分区表大概需要1天多时间）。数据管理要求对于主要用于数据管理需求场景的分区表，以下场景可以不考虑数据...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

新建TDengine数据源

说明通常情况下，生产数据源和开发数据源需配置非同一个数据源，以使开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。配置集群配置区域的参数。参数描述 ...

新建TDengine数据源

说明通常情况下，生产数据源和开发数据源需配置非同一个数据源，以使开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。配置集群配置区域的参数。参数描述 ...

升级

在阿里云官网，鼠标悬停至产品后，再将鼠标悬停至左侧导航栏的 大数据 上，单击数据开发和治理列下的 Dataphin。在Dataphin产品详情页，单击产品控制台，进入Dataphin管理控制台页面。在Dataphin管理控制台页面，单击已开通版本详情后...

兼容性概述

商业智能（BI）分析工具可以将复杂的数据转换成图表、仪表盘等形式，以直观的方式展示分析结果，使您能够快速把握业务状态。BI分析工具连接MaxCompute，能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源，为您带来更高效的数据...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

配置TiDB输出组件

同步其他数据源的数据至TiDB数据源的场景中，完成源数据源的信息配置后，需要配置TiDB输出组件写入数据的目标数据源。本文为您介绍如何配置TiDB输出组件。前提条件已创建TiDB数据源，如何创建，请参见创建TiDB数据源。进行TiDB输出组件...

操作审计

使用详情可参考文档：回收站 MaxCompute表数据恢复：提供数据备份与恢复功能，系统会自动备份数据的历史版本（例如被删除或修改前的数据）并保留一定时间，相关资源可参考：备份与恢复如何进行节点版本对比与版本回滚？您可以在数据开发...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

配置TiDB输出组件

同步其他数据源的数据至TiDB数据源的场景中，完成源数据源的信息配置后，需要配置TiDB输出组件写入数据的目标数据源。本文为您介绍如何配置TiDB输出组件。前提条件已创建TiDB数据源，如何创建，请参见创建TiDB数据源。进行TiDB输出组件...

配置OpenGauss输出组件

同步其他数据源的数据至OpenGauss数据源的场景中，完成源数据源的信息配置后，需要配置OpenGauss输出组件写入数据的目标数据源。本文为您介绍如何配置OpenGauss输出组件。前提条件已创建OpenGauss数据源，如何创建，请参见创建OpenGauss...

配置OpenGauss输出组件

同步其他数据源的数据至OpenGauss数据源的场景中，完成源数据源的信息配置后，需要配置OpenGauss输出组件写入数据的目标数据源。本文为您介绍如何配置OpenGauss输出组件。前提条件已创建OpenGauss数据源，如何创建，请参见创建OpenGauss...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

2020年

数据类型版本说明 1.0数据类型版本 2.0数据类型版本 Hive兼容数据类型版本组件与数据类型的兼容 2020-03-25 新增概览页面和查看历史作业快照功能。新功能新增概览页面和查看历史作业快照功能。MaxCompute管家 2020-03-20 新增支持...

功能更新动态（2022年之前）

2021年08月19日华北2（北京）、华东1（杭州）购买指引、计费说明 2021年08月24日华南1（深圳）2021年08月26日华东2（上海）数据源：可支持的数据源类型和版本拓展，优化数据源配置交互新建数据源页面支持分类展示数据源类型，同时增加...

数据传输费用（公网下载）

本文介绍MaxCompute中数据下载计费规则。MaxCompute仅对公网的下载数据进行收费，并按照下载的数据大小按量计费。MaxCompute会在第二天给出您的下载费用账单，您可以进入费用中心查看。下载计费规则如下。计费公式价格说明一次下载...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。StarRocks...

功能优势

当您的数据库中有数据需要被保护时，可以使用RDS MySQL全密态数据库功能，该功能提供的加密解决方案能够在遵守数据保护法规的前提下保障您的数据安全，使被保护数据免受未授权访问。本文将详细介绍RDS MySQL全密态数据库功能的优势，帮助您...

DescribeColumns-查询数据资产表中列的数据

调用DescribeColumns接口查询数据安全中心连接授权的MaxCompute、RDS等数据资产表中列的数据。接口说明本接口一般用于敏感数据资产信息表中列数据的查看，便于用户准确的对敏感数据进行分析。注意事项 DescribeColumns 接口已修订为 ...

大数据的发展历史简述

新品推荐