应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

Stage级别诊断结果

数据量被广播 Stage输入数据倾斜 Stage输出数据倾斜 较数据量被广播 问题 广播(Broadcast)是在两个相邻的Stage间,上游向下游Stage传输数据时所用的一种方法(更多详情,请参见 数据输出类型)。如果某个Stage广播了较多数据,...

SEMI JOIN(半连接)

MaxCompute支持半连接操作,通过右表过滤左表的数据,右表的数据出现结果集中。本文为您介绍半连接中 left semi join 和 left anti join 两种语法的使用方法。功能介绍 MaxCompute支持如下 semi join 操作:left semi join 当 join ...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据...

查询并下载数据

前提条件 若您需下载即席查询的结果数据,在您开始执行操作前,请确认您已开启项目下载数据的权限。具体操作,请参见 添加项目成员。新建即席查询 在Dataphin首页,单击顶部菜单栏 研发。默认进入数据 开发 页面。按照下图操作指引,进入 ...

查询并下载数据

若您需下载即席查询的结果数据,在您开始执行操作前,请确认您已开启项目下载数据的权限。具体操作,请参见 管理项目空间的权限和计算源。新建即席查询 在Dataphin首页,单击顶部菜单栏 研发。默认进入数据 开发 页面。按照下图操作指引,...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一,而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

手动修正数据

管理识别结果 对于系统未识别到的数据,您可以单击右上角的 新增识别结果 手动添加识别结果,同时支持您单击 导出识别结果 导出筛选条件下的识别结果至本地。新增识别结果:在弹出的对话框中选择要新增的字段所在的引擎,并输入格式为 ...

数据建模

节点运行成功后,右键单击 data4ml,选择 查看数据>ODPS源的输出,即可查看载入的结果数据。数据包括电量趋势下降指标、线损指标和告警类指标数量等窃电漏电指标,以及用户是否真实窃电漏电的数据。进行数据探索 相关性分析 在左侧组件列表...

Delta Lake概述

Delta Lake以数据为中心,围绕数据流走向(数据从流入数据湖、数据组织管理和数据查询到流出数据湖)推出了一系列功能特性,协助您搭配第三方上下游工具,搭建快捷、易用和安全的数据湖。背景信息 通常的数据湖方案是选取大数据存储引擎...

水波图

具体数据示例请参见画布编辑器中组件右侧配置面板 数据源 页签的 数据响应结果 区域。请求数据接口 重新请求服务端数据,上游数据处理节点或图层节点抛出的数据将作为参数。例如水波图配置了API数据源为 https://api.test ,传到 请求数据...

查看结果

本文档为您介绍验证数据同步结果的方法。在源数据表(mytable)中插入三行数据,验证数据同步结果。可以看到,在源表中插入三条数据后,销售目标达成率由原来...配置完成后,参考 发布可视化应用 发布大屏,进行实时计算结果数据的在线展示。

调优集群性能

异常Pattern检测会从SQL模板的角度,对异常提交的Pattern进行检测,与Bad SQL类似,导致CPU增高的Pattern需要从数据读取量异常、消耗CPU异常、查询耗时异常等多个维度进行分析,这些异常Pattern的出现都可能导致CPU增高。如果是计算节点或...

数据治理

数据地图 为什么数据地图数据总览页存储量和存储趋势图相差较数据地图血缘展示延迟问题 数据地图新建表搜不到 当前表业务逻辑变更如何通知下游?哪些类型的Hive表支持在数据地图中预览?数据保护伞 数据保护伞为什么有时候查询脱敏有...

采集数据

本教程以MySQL中的用户基本信息(ods_user_info_d)表及OSS中的网站访问日志数据(user_log.txt)文件,通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例,为您介绍如何通过DataWorks数据集成实现异构...

采集数据

本教程以MySQL中的用户基本信息(ods_user_info_d)表及OSS中的网站访问日志数据(user_log.txt)文件,通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例,为您介绍如何通过DataWorks数据集成实现异构...

Flink VVP+DLF数据入湖与分析实践

Flink任务可以利用数据湖统一存储的优势,使用Hudi结果表或Iceberg结果表,将作业的结果输出到数据湖中,实现数据湖分析。在写入数据湖的过程中,Flink可以通过设置DLF Catalog,将表的元数据同步到数据湖构建(DLF)中。依托数据湖构建...

API概览

巡检评分 API 标题 API概述 GetInstanceInspections 获取数据库实例巡检评分结果 调用GetInstanceInspections接口,获取数据库实例巡检评分的结果。事件通知 API 标题 API概述 SetEventSubscription 配置事件订阅设置 调用...

大数据安全治理的难点

大数据系统以数据类型多(结构化、非结构化、半结构化)、数据(动辄PB级别)著称,某些巨头组织一天就能新增数十万甚至数百万张表,如此体量给数据分级分类带来了极挑战,通过人工进行数据分级分类显然是不现实的,难免会出现遗漏的...

轮播页面

数据面板(分析模式)重要 在使用DataV数据集提供的BI分析功能之前,系统会对轮播页面进行以下变更。数据源 轮播页面数据接口 由静态数据切换至DataV数据集。更新DataV数据集配置(此操作不会使字段配置丢失)。BI分析数据配置面板中的详细...

互联网、电商行业离线大数据分析

以API的形式通过DataV在大屏上展示结果数据。方案优势 规模存储:超大规模存储且自动扩容,最大可以支持EB级别的数据。高性能:性能更加高效、稳定。低成本:与自建数据库进行分析相比,成本更低。安全:原生的多租户系统,以工作空间...

查询结果不符合预期的常见原因

Lindorm宽表经常会被应用在大数据链路中,如果写入链路出现问题,则可能导致写入延迟或无法正常写入数据,此时进行数据查询,该行数据还未写入,因此会产生无法查询到数据的情况。如果您在使用中遇到数据写入一段时间后才能查到的情况,...

快速体验

使用DataWorks的 数据开发 功能,将同步到MaxCompute中的数据进行清洗加工,并将结果数据写入MaxCompute表中。说明 RDS MySQL作为本次实验中存储原始数据的数据源。您无需自行准备RDS MySQL云产品及数据,本实验为您提供公共的实验环境与...

数据质量保障原则

数据缺失主要包括记录的缺失和具体某个字段信息的缺失,两者都会造成统计结果不准确。完整性是数据质量最基础的保障。例如,某个稳定业务的数据量每天约为100万条记录,某天突然下降了1万条,则可能是出现了记录缺失。例如,某科高考成绩表...

概述

这些非结构化数据随着智慧城市、短视频、商品个性化推荐、视觉商品搜索等应用的出现而爆发式增长。为了能够处理这些非结构化数据,通常会使用人工智能技术提取这些非结构化数据的特征,并将其转化为特征向量,再对这些特征向量进行分析和...

慢日志

慢日志问题极地影响数据库的稳定性,当数据出现负载高、性能抖动等问题时,数据库管理员或开发首先会查看是否有慢日志在执行。数据库自治服务DAS(Database Autonomy Service)支持慢日志分析功能,会统计并分析数据库中执行时间超过...

数据治理中心概述

数据治理中心是基于治理项,按照定义的健康分模型进行量化评估,最终通过治理评估报告及治理排行榜中的健康分来体现当前所取得的治理成效,健康分越高,治理成效越好。健康分相关内容,详情请参见 量化评估:健康分。量化评估:健康分 健康...

PolarDB Serverless实现了哪些突破

实现新架构的突破 随着 PolarDB Serverless新架构的率先提出,原生数据库的困境出现改变。PolarDB Serverless的最大创新之处在于:在业内首次实现了内存与计算/存储的解耦,内存进一步池化,形成三层池化,使得弹性能力有数量级的提升...

客户案例

同时,OceanBase 还为报表平台量身定制了近似计算的功能,对于一些超大结果集的运算,OceanBase 会筛选出一些精度影响较数据,然后基于这些数据进行汇总计算,在超大的数据计算的情况下,能够快速的得出一个离正确结果相差不大的近似...

常见问题

您可以在查询条件中添加热数据的时间范围,避免此类问题的出现。Q:为什么开启冷热分离后,有可能立刻触发 compaction 来转存冷数据?A:当前时间减去最旧的文件的生成时间大于冷数据归档周期时,则会触发冷数据转存。是否立刻触发 ...

主备方案介绍

数据库HBase存储海量大数据,在业务场景中往往承载着重要数据,为保障数据的高可用性和安全性,云数据库HBase提供了主备双活和主备容灾特性。本文介绍云数据库HBase的主备双活和主备容灾特性功能。使用场景 主备双活:大数据量随机读响应...

慢SQL

慢日志问题极地影响数据库的稳定性,当数据出现负载高、性能抖动等问题时,数据库管理员或开发首先会查看是否有慢日志在执行。数据库自治服务DAS(Database Autonomy Service)支持慢日志分析功能,会统计并分析数据库中执行时间超过...

资产安全概述

识别记录 识别记录模块记录了所有识别规则执行后的结果,即某个字段命中了哪条规则,属于什么分级分类的敏感数据。同时,对个别需要特殊处理的字段,支持 手动修改识别规则,确保识别结果准确可用。敏感数据保护 脱敏规则 脱敏规则设定了对...

资产安全概述

识别记录 识别记录模块记录了所有识别规则执行后的结果,即某个字段命中了哪条规则,属于什么分级分类的敏感数据。同时,对个别需要特殊处理的字段,支持 手动修改识别规则,确保识别结果准确可用。敏感数据保护 脱敏规则 脱敏规则设定了对...

列存索引中TopK算子的实现

在海量数据上求TopK是一个很经典的问题,特别是衍生出的深翻页查询,给分析型数据库带来了很的挑战。本文将介绍 PolarDB MySQL版 的列存索引(In Memory Column Index,IMCI)特性如何应对这样的挑战。背景 业务系统中普遍存在这样一种...

慢日志分析

慢日志问题极地影响数据库的稳定性,当数据出现负载高、性能抖动等问题时,数据库管理员或开发首先会查看是否有慢日志在执行。数据库自治服务DAS(Database Autonomy Service)支持慢日志分析功能,会统计并分析数据库中执行时间超过...

质量规则模板类型

实时多链路对比 高可用场景下,需要构建多条链路,以便数据出现异常时,能够及时切换。对于多链路之间的数据计算进度监控则可以发现一些数据滞留、统计偏差问题,提升实时数据质量。稳定性 实时统计值检测 实时数据为指标值或可统计数据时...

质量规则模板类型

实时多链路对比 高可用场景下,需要构建多条链路,以便数据出现异常时,能够及时切换。对于多链路之间的数据计算进度监控则可以发现一些数据滞留、统计偏差问题,提升实时数据质量。稳定性 实时统计值检测 实时数据为指标值或可统计数据时...

MapReduce

输出结果数据。说明 上文仅是对MapReduce框架的简单介绍,更多详情请查阅 功能介绍。下文将以WordCount为例,为您介绍MaxCompute MapReduce各个阶段的概念。假设存在一个文本a.txt,文本内每行是一个数字,您要统计每个数字出现的次数。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 数据库备份 DBS 云数据库 Redis 版 云数据库 RDS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用