关于大数据的工作原理-关于大数据的工作原理文档介绍内容-阿里云

创建Kudu数据源

在新建数据源对话框的 大数据存储区域，选择 Kudu。如果您最近使用过Kudu，也可以在最近使用区域选择Kudu。同时，您也可以在搜索框中，输入Kudu的关键词，快速筛选。在新建Kudu数据源对话框中，配置连接数据源参数。配置数据源的...

配置跨库Spark SQL节点

大数据量处理：支持快速处理较大规模的数据（十万条以上数据）。Spark SQL语法：基于Spark 3.1.2版本部署，提供该版本所有语法特性和原生函数。原生函数包括聚合函数、窗口函数、数组函数、Map函数、日期和时间处理函数、JSON处理函数等。...

兼容性概述

商业智能（BI）分析工具可以将复杂的数据转换成图表、仪表盘等形式，以直观的方式展示分析结果，使您能够快速把握业务状态。BI分析工具连接MaxCompute，能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源，为您带来更高效的数据...

Pandas API支持

MaxFrame提供了兼容Pandas的API接口，您可以用类似于Pandas的方式来操作MaxCompute中的数据，同时利用MaxCompute强大的分布式计算能力，简化您在大数据环境下的数据处理工作，本文为您介绍Pandas API的支持情况。当前MaxFrame支持的API详情...

离线同步并发和限流之间的关系

在一些数据同步场景，脏数据的出现会导致任务同步效率下降，以关系数据库写出为例，默认是执行batch批量写出模式，在遇到脏数据时会退化为单条写出模式（以找出batch批次数据具体哪一条是脏数据，保障正常数据正常写出），但单条写出效率会...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

管理健康报告

该健康报告提供了前一天（T+1）的数据，并包括SQL查询、表分析和导入任务三个核心部分。查看健康报告进入EMR Serverless StarRocks实例列表页面。登录 E-MapReduce控制台。在左侧导航栏，选择 EMR Serverless>StarRocks。在顶部菜单栏处，...

必读：简单模式和标准模式的区别

关于工作空间创建数据源的详情请参见：创建并管理数据源。是否可跨项目、跨数据库访问资源与数据源本身特性有关。若创建数据源时，开发环境与生产环境创建不同的数据源，那么在DataWorks开发环境是否可访问生产环境下的表、资源、函数等，...

DataWorks on EMR数据安全方案

工作空间：通过DataWorks的工作空间规划可以实现工作空间的人员管理、设置大数据作业可见性和可运维性。工作空间的规划与操作请参见工作空间管理概述。安全中心：通过DataWorks的安全中心可以设置DLF表的访问权限。操作详情请参见 DLF数据...

IO加速

本文档将详细介绍该技术的优势、适用场景和工作原理，帮助您在面临大规模或频繁数据读写需求时显著提升数据库性能。背景 RDS PostgreSQL在数据处理过程中，数据会从磁盘读取到内存，在内存中处理完成后，数据再从内存写入到磁盘中。与内存...

2024年

03-26 新增Pandas API 新说明 MaxFrame提供了兼容Pandas的API接口，您可以用类似于Pandas的方式来操作MaxCompute中的数据，同时利用MaxCompute强大的分布式计算能力，简化您在大数据环境下的数据处理工作。Pandas API支持 2024-03-26 新增...

使用DBS和DG备份本地或第三方云数据库

数据库备份DBS支持通过数据库网关DG（Database Gateway）备份本地IDC或第三方云厂商的私网数据库到云存储，您只需简单几步即可将数据库低成本地接入至阿里云。完成接入后，在配置DBS的逻辑备份时，您可以直接将数据库网关中接入的数据库...

无锁结构变更方案对比

有无触发器对比有触发器：基于触发器设计的工具代码逻辑相对简单，大部分数据上的工作交给了触发器去完成，包含数据库的隐式处理、数据类型以及切换等相关操作，简化了进行实时表迁移的大量流程。无触发器：无触发器设计最大的优点是和...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

RDS实例间的数据迁移

更多迁移功能原理，请参见数据迁移工作原理。DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在...

RDS实例间数据迁移

更多迁移功能原理，请参见数据迁移工作原理。DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在...

常见问题

数据同步的工作原理，请参见产品架构及功能原理。如何计算同步延迟？同步延迟是指同步到目标数据库中的最新数据的时间戳，与源数据库的当前时间戳之间的差值。单位为毫秒。说明正常情况的延迟在1000毫秒以内。数据同步任务是否可以修改...

调度依赖配置指引

自定义依赖配置具体如下：依赖工作空间根节点例如，同步任务中的上游数据来源于其他业务数据库，SQL类型任务对实时同步任务产出的表数据进行加工等场景，您可直接选择挂载依赖至工作空间根节点下。依赖虚拟节点当工作空间中业务流程较多...

建模空间

模型设计师设置好数据模型设计空间与数据研发工作空间的关系后，模型设计师在进行模型（汇总表、维度表、明细表、应用表）发布时，可以选择将模型物化到被关联的某一个研发空间，后续数据开发工程师即可在对应的工作空间进行数据开发...

设置透明数据加密

在安全合规或静态数据加密等场景下，推荐使用透明数据加密TDE功能，对数据文件执行实时I/O加密和解密，通过在数据库层执行静态数据加密，阻止可能的攻击者绕过数据库直接从存储中读取敏感信息，有效提高数据库中敏感数据的安全性。...

如何处理Tair集群数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。下图介绍两个典型...

如何处理Redis集群数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。下图介绍两个典型...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

OpenEvent概述

执行补数据操作时产生的工作流状态监控。运行手动业务流程时产生的工作流状态监控。节点变更事件在运维中心（生产环境）的节点变更事件，包括普通事件和扩展点事件。普通事件：您可以在本地开发程序用于接收该类型的事件消息，以便您...

操作权限控制

使用其他引擎时的权限问题当前工作空间使用的其他引擎时，在数据开发界面执行任务访问引擎资源时是否有权限与您在引擎配置中配置账号有关。如何控制只能从内网环境访问DataWorks控制台？如果您希望您所在企业的用户只能通过企业内网访问...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

数据源开发和生产环境隔离

背景信息同一个名称的数据源存在开发环境和生产环境两套配置，在配置数据源时，您可基于标准模式工作空间对应底层两个数据库或数据仓库的背景，针对不同环境设置不同的数据源信息。在同步任务执行过程中，可由执行环境控制离线同步任务所...

通过函数计算节点实现GitHub实时数据分析与结果发送

步骤四：配置案例在 DataWorks控制台左侧导航栏选择 大数据体验>ETL工作流模板，单击 Github十大热门编程语言模板，单击载入模板，配置模板参数。参数说明模板名称显示当前模板名称，即“Github十大热门编程语言”。工作空间选择 ...

面临的业务挑战

越来越多的企业大数据分析已不再局限于传统的T+1场景，对数据的实时性分析和处理要求提出了更高要求。传统的批处理模式往往有数小时甚至数天的延迟，不能满足T+0的业务需要，用户要求在秒级，甚至毫秒级完成对海量数据分析。系统极复杂大...

规划工作空间

本文介绍DataWorks适用于不同场景的工作空间规划方案。工作空间权限模型 DataWorks各主要模块针对工作空间的权限隔离设定有所不同：功能模块权限模型工作空间管理不同的工作空间的是完全隔离的。不同的工作空间可以有不同的管理员、...

采集数据

由于平台已提供用于本教程所需测试数据及数据源，所以您需要在您的工作空间将该平台提供的数据源信息添加至您的工作空间，即可在您的工作空间访问平台提供的测试数据。本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操...

简介

HBase Ganos是什么 HBase Ganos是阿里云推出的一款包含管理空间几何数据、时空轨迹、专题栅格、遥感影像的时空大数据引擎系统。系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，...

采集数据

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据，并且只支持在数据集成模块读取数据。章节目标将MySQL存储的用户基本信息及OSS存储的网站访问日志数据，通过数据集成服务同步至...

亿海蓝-航运大数据的可视化案例

——亿海蓝CTO 客户简介亿海蓝是中国的航运大数据公司，做为中国最大的AIS数据服务运营商，发展目标是通过大数据技术推动全球航运物流与互联网的融合，加速航运产业转型升级。亿海蓝目前已为全球上百万行业用户提供数据服务，客户涵盖港口...

确认表血缘

确认表血缘同空间下确认上游表血缘节点周期写入某张表某个分区的数据，大部分场景都是采用调度参数来动态实现，您可参考调度参数，了解调度参数的替换原理。若您需要依赖同工作空间某节点，则可检查其调度参数的配置情况。开发环境确认...

数据迁移与同步FAQ

DTS的数据迁移与数据同步工作原理是什么？DTS的数据迁移与数据同步有什么区别？使用DTS遇到预检查报错，如何解决？什么是数据迁移、数据同步？数据迁移：将Redis数据库中的数据（即键值对）迁移至另一个Redis数据库中。通常迁移完成后即可...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

整体架构

AnalyticDB MySQL版是基于数据库大数据一体化的理念和趋势，在工程上深度打磨出的云原生数据仓库。技术架构 AnalyticDB MySQL版采用云原生架构，计算存储分离、冷热数据分离，支持高吞吐实时写入和数据强一致，兼顾高并发查询和大吞吐批...

ListDoctorHiveTables-批量获取Hive表分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。coldDataSize:冷数据的数据量大小。冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据数的据量大小。极冷数据指的是 90 日以内...

关于大数据的工作原理

新品推荐