大数据与泄密通道-大数据与泄密通道文档介绍内容-阿里云

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

Napatech案例

Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与各类大数据平台集成，完成数据的大规模离线分析。基于Lindorm的解决方案，用户在采用到100Gbps+流量产生的大量数据包元数据直接通过...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

使用flink-dts-connector消费订阅数据

说明如果您部署的Flink所属的ECS实例与数据订阅通道属于经典网络或同一专有网络，建议通过内网地址进行数据订阅，网络延迟最小。在DTS控制台单击目标订阅实例ID，在订阅配置页面，您可以获取到订阅Topic、网络地址及端口号信息。topic ...

概述

DataWorks（数据工场，原大数据开发套件）是阿里云重要的PaaS（Platform-as-a-Service）平台产品，为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务，一站式开发管理的界面，帮助企业专注于数据价值的挖掘...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

数据导入性能优化

优化通道控制数据同步性能与任务期望最大并发数配置项大小成正比，建议尽可能增加任务期望最大并发数。重要任务期望最大并发数越高，占用DataWorks资源会越多，请合理选择。建议打开分布式处理能力，以取得更好的同步性能。常见问题...

数据导入性能优化

优化通道控制数据同步性能与任务期望最大并发数配置项大小成正比，建议尽可能增加任务期望最大并发数。重要任务期望最大并发数越高，占用DataWorks资源会越多，请合理选择。建议打开分布式处理能力，以取得更好的同步性能。常见问题...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

使用Kafka客户端消费订阅数据

说明如果您部署Kafka客户端所属的ECS实例与数据订阅通道属于经典网络或同一专有网络，建议通过内网地址进行数据订阅，网络延迟最小。INITIAL_CHECKPOINT_NAME 消费的数据时间点，格式为Unix时间戳，例如1592269238。说明您需要自行保存...

通过数据订阅实现缓存更新策略

说明如果您部署SDK客户端所属的ECS实例与数据订阅通道属于经典网络或同一专有网络，建议通过内网地址进行数据订阅，网络延迟最小。在DTS控制台单击目标订阅实例ID，在基本信息页面的网络区域，您可以获取网络地址及端口号信息。topic ...

使用flink-dts-connector消费订阅数据

说明如果您部署的Flink所属的ECS实例与数据订阅通道属于经典网络或同一专有网络，建议通过内网地址进行数据订阅，网络延迟最小。在DTS控制台单击目标订阅实例ID，在基本信息页面，您可以获取到订阅Topic 和网络信息。topic topic ...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

轮播页面

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

什么是备份数据量

存储数据量存放存储介质的实际数据大小，与备份数据量不同，存储数据量取决于备份数据量、备份数据存储格式、压缩算法等因素。空间大小：数据库磁盘空间（RDS/ECS）>数据文件空间（实际使用）>备份数据量（DBS）>存储数据量（内置存储）。...

应用场景

大数据场景云数据库HBase支持海量全量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势如下：低成本：高压缩比，数据冷热分离，...

排查订阅任务问题

说明如果您部署SDK客户端所属的ECS实例与数据订阅通道属于同一专有网络，建议通过内网地址进行数据订阅，网络延迟最小。在DTS控制台单击目标订阅实例ID，在基本信息页面的网络区域，您可以获取网络地址及端口号信息。topic 数据订阅...

使用Kafka客户端消费订阅数据

说明如果您部署Kafka客户端所属的ECS实例与数据订阅通道属于经典网络或同一专有网络，建议通过内网地址进行数据订阅，网络延迟最小。INITIAL_CHECKPOINT_NAME 消费的数据时间点，格式为Unix时间戳，例如1592269238。说明您需要自行保存...

OSS数据安全防护最佳实践

核心能力数据分类分级、敏感数据识别云端OSS中存储了大量的数据与文件，但无法准确获知这些OSS数据中是否包含敏感信息以及敏感数据所在的位置。您可以使用 DSC 内置算法规则，或根据其行业特点自定义规则，对其存储在OSS中的数据进行整体...

应用场景

大数据场景：海量数据存储与分析 Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势低成本：高压缩比，数据冷热分离...

PolarDB-X 2.0数据源

PolarDB-X 2.0数据源为您提供读取和写入PolarDB-X 2.0的双向通道，本文为您介绍DataWorks的PolarDB-X 2.0数据同步的能力支持情况。使用限制 PolarDB-X 2.0数据源仅支持使用独享数据集成资源组。支持的版本离线读写：支持PolarDB-X 2.0，...

ClickHouse数据源

ClickHouse数据源为您提供读取和写入ClickHouse双向通道的功能，本文为您介绍DataWorks的ClickHouse数据同步的能力支持情况。支持的版本支持阿里云ClickHouse的20.8、21.8内核版本。您需要确认驱动和您的ClickHouse服务之间的兼容能力，...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

流式数据通道概述

MaxCompute流式数据通道服务提供了以流式的方式把数据写入MaxCompute的能力，使用与原批量数据通道服务不同的一套全新的API及后端服务。流式服务在API上极大简化了分布式服务的开发成本，同时解决了批量数据通道在高并发、高QPS（Queries-...

如何对JSON类型进行高效分析

PolarDB 列存索引（In Memory Column Index，IMCI）功能推出了完备的虚拟列与列式JSON功能等，可以快速处理大数据和多种数据类型（包括结构化数据与半结构化数据等），并提供高效的数据分析、查询与流计算能力，适用于数据分析、数据仓库与...

MaxCompute近实时增全量一体化架构介绍

数据库整库实时同步写入当前数据库系统与大数据处理引擎都有各自擅长的数据处理场景，面对一些复杂的业务需求，往往需要同时运用OLTP（联机事务处理）、OLAP（联机分析处理）及离线分析引擎来对数据进行全面且深入的分析与处理，因此数据...

混合存储型（已停售）

在保证常用数据访问性能不下降的基础上，混合存储型能够大幅度降低用户成本，实现性能与成本的平衡，同时使单个Redis实例的数据量不再受内存大小的限制。内存数据：内存中存放了热数据的Key和Value，同时为快速确认要操作的Key是否存在，...

恢复MongoDB数据库

本文介绍如何通过数据库备份DBS 恢复已完成备份的MongoDB数据库，可用于误操作后恢复以及分析历史数据等场景。前提条件已完成数据库备份。相关操作，请参见 MongoDB逻辑备份、从备库备份MongoDB数据库。操作步骤登录 DBS控制台。单击...

快速入门

预览通道中的数据格式创建通道后，通过模拟数据消费可以预览通道中的数据格式。写入或删除数据，详情请参见控制台读写数据。预览通道中的数据格式。在概览页页面，单击实例名称或在操作列单击实例管理。在实例详情页签的数据表...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

MaxCompute数据源

数据集成使用MaxCompute引擎同步数据通道进行数据上传和下载（同步数据通道SLA详情请参见数据传输服务（上传）场景与工具），请根据MaxCompute引擎同步数据通道SLA评估数据同步业务技术选型。一键实时同步至MaxCompute，按实例模式同步时...

使用Tunnel命令或Tunnel SDK

MaxCompute的客户端（odpscmd）、Studio等数据上传下载工具均通过Tunnel功能实现数据的上传与下载，本文为您介绍如何使用Tunnel命令或Tunnel SDK上传数据至MaxCompute。前提条件已经创建好MaxCompute项目，并用对应的工具连接MaxCompute。...

通道服务概述

消费延迟监控通道服务通过DescribeTunnel API提供了客户端消费数据延迟（即当前消费到的数据的时间点）信息，并在控制台提供了通道数据消费监控。数据消费能力水平扩展通道服务提供了逻辑分区的自动负载均衡功能，负载均衡增加了消费端...

升级数据库大版本

升级数据库大版本所用时间与数据库的数据量有关，请根据业务情况提前安排升级时间。升级数据库大版本后不支持降级数据库大版本。升级数据库大版本后，低版本的备份数据不能恢复至云数据库MongoDB实例。您可以下载备份文件，将低版本的备份...

离线同步并发和限流之间的关系

目前数据集成绝大多数通道支持脏数据阈值限制能力，对于支持脏数据阈值限制的通道，常见配置场景介绍如下：不配置脏数据限制：表示容忍所有出现的脏数据，遇到脏数据不会导致任务失败，任务配置errorLimit留空。配置脏数据限制为0：表示不...

常见问题

如何理解开源与云原生的大数据技术与产品？MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute的项目发挥什么作用？如何获取MaxCompute中的Accesskey_ID和AccessKey_Secret？现有账号的AccessKey被禁用，创建一个新的...

大数据与泄密通道

新品推荐