大数据时代的发展趋势-大数据时代的发展趋势文档介绍内容-阿里云

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

创建HBase数据源

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您...

ETL工作流快速体验

GitHub十大热门编程语言 DataWorks MaxCompute 函数计算 OSS 数据集成数据开发基于GitHub Archive公开数据集，通过DataWorks 数据集成模块获取过去1小时GitHub中提交次数最多的代码语言数据，在DataStudio 数据开发模块通过函数计算...

新建ArgoDB数据源

通过创新建ArgoDB数据源能够实现Dataphin读取ArgoDB的业务数据或向ArgoDB写入数据。本文为您介绍如何新建ArgoDB数据源。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤在Dataphin...

新建Paimon数据源

通过新建Paimon数据源能够实现Dataphin读取Paimon的业务数据或向Paimon写入数据。本文为您介绍如何新建Paimon数据源。权限说明仅支持具备新建数据源权限的账号进行新建。更多信息，请参见数据源权限说明。使用限制 Paimon数据源不支持以...

创建TDH Inceptor数据源

通过创建TDH Inceptor数据源能够实现Dataphin读取TDH Inceptor的业务数据或向TDH Inceptor写入数据。本文为您介绍如何创建TDH Inceptor数据源。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

Quick BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入阿里云Quick BI，对海量数据进行实时在线分析服务，同时支持拖拽式操作和丰富的可视化效果，帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。本文为您介绍如何使用Quick BI连接...

数据质量评估标准

一致性一致性通常体现在跨度很大的数据仓库中。例如，某公司有很多业务数仓分支，对于同一份数据，在不同的数仓分支中必须保证一致性。从在线业务库加工到数据仓库，再到各个数据应用节点，用户ID必须保持同一种类型，且长度也要保持一致...

OSS数据安全防护最佳实践

DSC 在您完成数据源识别授权后，从您存储在OSS的海量数据中快速发现和定位敏感数据，对敏感数据分类分级并统一展示，同时追踪敏感数据的使用情况，并根据预先定义的安全策略，对数据进行保护和审计，以便您随时了解OSS数据资产的安全状态。...

数据组织优化

另外，对于超过一定时间跨度的文件也不会进行合并，因为将时间跨度太大的数据合并在一起可能导致在进行Time travel或者增量查询时读取大量不属于此次查询时间范围的历史数据，进而造成不必要的读放大问题。由于数据是按照 BucketIndex 来...

数据集成概述

离线（批量）的数据通道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（Reader）、数据写入插件（Writer），并基于此框架设计一套简化版的中间数据传输格式，从而实现任意结构化、半结构化数据源之间数据传输。...

使用MaxCompute控制台（离线）

MaxCompute控制台提供数据上传功能，支持您将本地文件或阿里云对象存储服务OSS中的文件数据离线（非实时）上传至MaxCompute进行分析处理及相关管理操作。使用限制仅支持基于本地文件或阿里云对象存储OSS 上传数据，具体如下。本地文件...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中，也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute ...

DescribeColumns-查询数据资产表中列的数据

调用DescribeColumns接口查询数据安全中心连接授权的MaxCompute、RDS等数据资产表中列的数据。接口说明本接口一般用于敏感数据资产信息表中列数据的查看，便于用户准确的对敏感数据进行分析。注意事项 DescribeColumns 接口已修订为 ...

数据归档

通过数据归档OSS功能，用户能够将低频访问、数据量大的表转储至OSS，并通过原生InnoDB的访问方式去读取冷表数据。数据归档DDL操作如下：归档 ALTER TABLE$table_name ENGINE_ATTRIBUTE='{"OSS":"Y"}';取回 ALTER TABLE$table_name ENGINE_...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

识别任务说明

扫描速度不同类型数据库的扫描速度说明如下，该扫描速度仅供参考：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据（TableStore、MaxCompute等）：对于较大的数据库（即表数量大于1000个），扫描速度为1000列/分钟。...

功能特性

配置管理数据保护敏感数据管理 DMS的敏感数据保护能力能根据所选的敏感数据扫描模板、敏感数据识别模型以及脱敏算法对数据进行脱敏处理，以避免敏感数据滥用，有效保护企业的敏感数据资产，防止数据泄露造成企业经营资金损失或罚款。...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

添加TableStore数据源

本文档介绍在DataV中添加TableStore数据源的方法，以及相关参数配置说明。前提条件已准备好待添加的TableStore数据源。添加TableStore数据源操作步骤登录 DataV控制台。在工作台页面，单击数据准备>数据源，进入数据源页面，单击 ...

SelectDB数据源

DataWorks数据集成支持使用SelectDB Writer导入表数据至SelectDB。本文为您介绍DataWorks的SelectDB数据同步能力支持情况。支持的SelectDB版本 SelectDB Writer使用的驱动版本是MySQL Driver5.1.47，驱动能力详情请参见 MySQL Connectors。...

准备数据

进入业务流程开发面板，并向面板中拖入一个虚拟节点（start）和三个离线同步节点（电量下降趋势数据同步、窃电标志数据同步和指标数据同步）分别填写相应的配置后，单击提交。拖拽连线将start节点设置为三个离线同步节点的上游节点。配置...

添加TableStore数据源

本文档介绍在DataV中添加TableStore数据源的方法，以及相关参数配置说明。前提条件已准备好待添加的TableStore数据源。添加TableStore数据源操作步骤登录 DataV控制台。在我的数据页签中选择数据源管理，单击添加数据。从类型列表...

未来规划

数据库的未来发展趋势可以总结为以下四点：产品架构与技术创新：云原生+分布式（弹性、高可用）。架构上分布式共享存储、存储计算分离，云原生架构+Shared Nothing分布式架构，满足弹性、高可用、水平拓展的能力。数据挑战：多模，结构化与...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。StarRocks...

冷热分离

背景信息在海量大数据场景下，一张表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低，同时这部分历史数据体量非常大，比如订单数据或者监控数据，降低这部分数据的存储成本将会极大的节省企业的成本。因此，如何以极简的...

RDS术语

DMS Data Management，数据管理，是一种阿里云提供的图形化的数据管理工具，集数据管理、结构管理、访问安全、BI图表、数据趋势、数据轨迹、性能与优化和服务器管理于一体的数据管理服务。支持MySQL、SQL Server、PostgreSQL、MongoDB、...

RDS术语

DMS Data Management，数据管理，是一种阿里云提供的图形化的数据管理工具，集数据管理、结构管理、访问安全、BI图表、数据趋势、数据轨迹、性能与优化和服务器管理于一体的数据管理服务。支持MySQL、SQL Server、PostgreSQL、MongoDB、...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

文档更新动态（2022年之前）

新功能网络连通解决方案 2021年08月24日数据服务：支持数据服务模块的数据查询加速、支持的数据源类型和版本拓展为了满足对数据查询速度有要求的业务场景，Dataphin支持为项目添加加速计算源，且完成Dataphin数据源开发后，您可以手动...

功能更新动态（2022年之前）

2021年08月19日华北2（北京）、华东1（杭州）购买指引、计费说明 2021年08月24日华南1（深圳）2021年08月26日华东2（上海）数据源：可支持的数据源类型和版本拓展，优化数据源配置交互新建数据源页面支持分类展示数据源类型，同时增加...

大数据时代的发展趋势

新品推荐