相关性分析

皮尔逊相关系数:用于衡量两个数据集是否在一条线上面,即针对线性数据的相关系数计算,针对非线性数据便会有误差。肯德尔相关系数:用于反映分类变量的相关性,即针对无序序列的相关系数计算,非正太分布的数据。斯皮尔曼相关系数:用于非...

常见问题

支持的数据库部署位置(接入方式)阿里云实例 有公网IP的自建数据库 通过数据库网关DG接入的自建数据库 通过云企业网CEN接入的自建数据库 ECS上的自建数据库 通过专线/VPN网关/智能接入网关接入的自建数据库 阿里云实例 通过数据库网关DG接...

线性回归

线性回归模型具有简单、易于理解和解释的特点,同时可以通过多项式扩展等方法处理非线性数据,具有较高的泛化能力和预测准确率。但是,线性回归模型对于离群点、噪声数据和非线性关系的数据比较敏感,需要进行特征标准化和正则化处理。组件...

概念解释

Validation Loss Validation Loss代表针对验证集学习的拟合程度,曲线一般呈现先下降后上升趋势,Loss越小,表示验证数据拟合程度越高,优秀的模型效果往往出现Validation Loss的最小值节点,此时拟合程度最佳,训练效果最好。Validation ...

应用场景

敏感数据识别与打标 DSC 能从海量数据中发现和锁定保护对象,精准区分敏感数据敏感数据。通过内置算法规则和自定义敏感数据识别规则,对其存储的数据库类型数据以及非数据库类型文件进行整体扫描、分类、分级,并根据结果做进一步的...

分段多项式回归

参数说明 IN端口 参数名 参数描述 是否必填 输入数据类型 数据源类型 特征变量 配置模型特征列 是 整数或浮点数 说明 若存在数值数据,则会抛出异常。CSV组件。IGateOffline组件。平台上其他数据处理组件。按照平台组件开发的自定义组件...

高斯过程回归

功能说明 高斯过程回归是使用高斯过程先验对数据进行回归分析的参数模型。计算逻辑原理 高斯过程回归中支持三种核函数:高斯核:,其中尺度因子,尺度 是高斯核函数的参数。线性核:,其中偏移 和尺度因子,是线性核函数的参数。二次有理...

登录数据库

相关操作 在您成功登录数据库后,可能需要进行如下操作:在SQL Console中,针对该数据库进行创建表、查询表数据、变更表数据等操作。具体操作,请参见 SQL Console初体验。导出数据库中已有的数据。具体操作,请参见 数据库导出。创建数据...

SQL查询

工作空间已配置数据源:DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源,若要操作引擎数据源,请确保已创建数据源,详情请参见 创建并管理数据源。已拥有某数据源在数据分析模块的查询权限:...

动态特征提取

线性趋势:对采样数据序列进行线性拟合,取线性模型的系数,作为输出。变化趋势:对采样数据序列做Mann-Kendall测试(曼肯德尔检验),若“无趋势”,则输出0;反之,则取slope参数,作为输出。曼肯德尔检验:Mann-Kendall 趋势检验(有时...

逻辑回归

参数说明 IN端口 参数名 参数描述 是否必填 输入数据类型 数据源类型 特征变量 配置模型特征列 是 整数或浮点数 说明 若存在数值数据,则会抛出异常。CSV组件。IGateInOffline组件。平台上其他数据处理组件。按照平台规范开发的自定义...

数据治理

数据地图 为什么数据地图数据总览页存储量和存储趋势图相差较大?数据地图血缘展示延迟问题 数据地图新建表搜不到 当前表业务逻辑变更如何通知下游?哪些类型的Hive表支持在数据地图中预览?数据保护伞 数据保护伞为什么有时候查询脱敏有...

调试实时任务

调试方式说明 本地调试方式:即不通过集群进行调试,调试的数据非流式数据。该方式调试速度较快,但操作较为繁琐,需要手动上传或填写数据,仅支持特定的数据源进行自动采样。Session集群调试方式:即通过Session集群进行调试,调试的数据...

组件参考:所有组件汇总

推荐方法 FM算法 FM(Factorization Machine)算法兼顾特征之间的相互作用,是一种非线性模型,适用于电商、广告及直播的推荐场景。ALS矩阵分解 交替最小二乘ALS(Alternating Least Squares)算法的原理是对稀疏矩阵进行模型分解,评估...

滤波

是 整数或浮点数 说明 若存在数值数据,则会抛出异常 不限 OUT端口-输出参数 参数名 参数描述 输出数据类型 OUT 滤波后的输出,与IN端口配置的输入参数一致。浮点数 其他参数 参数名 参数描述 是否必填 参数默认值 参数范围 滤波类型 ...

常见问题FAQ

基本问题 Q:云数据库专属集群MyBase 是什么意思?它和RDS数据库的区别是什么?A:云数据库专属集群MyBase 是由多台主机(底层服务器,如ECS I2服务器、神龙服务器)组成的集群,详情请参见 常见术语。相比直接使用RDS 或Redis 实例,专属...

AUTO模式核心特性及典型场景

热点分裂——有效解决数据热点 对于热点数据,PolarDB-X 支持两种处理方式:第一种方案是将热点数据所在的分区数据迁移到特定的数据节点,让热点数据以独享存储资源的方式服务业务,能够实现热点数据不影响热点数据的业务。具体操作步骤...

查看数据迁移项目的详情

启动数据迁移项目后,您可以在数据迁移项目的详情页面查看相应项目的基本信息、项目执行的进度和状态等信息。进入详情页面 您可以在数据迁移项目的详情页面,查看计划的迁移环节、各个环节的进度和状态,帮助您了解数据库迁移的整体进度,...

敏感数据溯源

DataWorks的数据溯源功能,支持通过提取数据泄露文件中数据的水印信息,帮助您定位到可能会泄露目标数据的责任人。本文为您介绍如何创建溯源任务,并通过该任务查找可能会泄露数据的责任人。前提条件 已创建 数据识别规则,详情请参见 配置...

调度依赖配置指引

方式一:自定义依赖关系 若DataWorks上任务间不存在强血缘依赖(例如,不强依赖上游某个分区数据,仅取上游当前时间点最大分区数据),或依赖的数据非周期调度节点产出的表数据(例如,本地上传的表数据),则您可自定义节点的依赖关系。...

产品优势

高可用和高可靠保障,数据安全可靠 共享分布式存储的设计,彻底解决了主从(Master-Slave)异步复制所带来的备库数据非强一致的缺陷,使得整个数据库集群在应对任何单点故障时,可以保证数据零丢失。多可用区架构,在多个可用区内都有数据...

数据服务

数据服务访问RDS实例情况说明 为了更好地保障用户通过DataWorks数据服务访问RDS实例的安全性,新增数据源 时,选择的数据源类型不同(实例模式、连接串模式),在DataWorks数据服务中封装API时将会有不同的提示和建议,详情如下:数据源...

配置数据质量监控

表的行数0校验(强规则)主键唯一性校验(弱规则)3、规则关联调度节点 数据质量通过关联调度的方式及时感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,即通过关联调度节点触发数据质量校验规则执行。...

离线同步数据质量排查

如果写出数据和目标存储已有数据发生数据约束(主键冲突、唯一键约束、外键约束等),数据库则使用来源数据update更新目标表已有数据行,在目标表存在多个数据约束的情况下,数据替换可能会失败并产生脏数据 如果写出数据和目标存储已有...

离线同步并发和限流之间的关系

在一些数据同步场景,脏数据的出现会导致任务同步效率下降,以关系数据库写出为例,默认是执行batch批量写出模式,在遇到脏数据时会退化为单条写出模式(以找出batch批次数据具体哪一条是脏数据,保障正常数据正常写出),但单条写出效率会...

配置数据质量监控

表的行数0校验(强规则)主键唯一性校验(弱规则)3、规则关联调度节点 数据质量通过关联调度的方式及时感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,即通过关联调度节点触发数据质量校验规则执行。...

产品优势

本文介绍 云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息 云原生多模数据库 Lindorm 兼容HBase、Cassandra、S3、TSDB、HDFS、Solr等多种标准接口,支持宽表、时序、对象、文本、队列、空间等多种数据模型,适用于日志、账单、...

PS线性回归

线性回归(Linear Regression)是分析因变量和多个自变量之间的线性关系模型,参数服务器PS(Parameter Server)致力于解决大规模的离线及在线训练任务。PS线性回归支持千亿样本、十亿特征的大规模线性训练任务。组件配置 您可以使用以下...

单值查询数据

算子 描述 插值方法 avg 平均值 线性插值(斜率拟合)count 数据点数 插0 mimmin 最小值 插最大值 mimmax 最大值 插最小值 min 最小值 线性插值 max 最大值 线性插值 none 不做计算 插0 sum 求和 线性插值 zimsum 求和 插0 Filters说明 有...

多值数据查询

多值模型数据查询 mquery 请求路径和方法 请求路径 请求方法 描述/api/mquery POST 查询数据 重要 多值模型数据和原来写入的单值模型数据不兼容。单值模型数据需要通过原有的/api/put 接口进行写入。同时多值写入数据需要通过/api/mquery ...

导入与导出

数据同步过程中,可以修改源表中的字段类型,目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改,并且只能将取值范围小的数据类型更改为取值范围大的数据类型,或者将单精度数据类型更改为双精度数据类型。整型数据类型:支持...

PolarDB并行查询

其基本的思路是计算的下推,将尽可能多的计算分发到多个worker上并行完成,这样像IO这样的重操作就可以同时进行,但和一般的share-nothing分布式数据库不同,由于底层共享存储,PolarDB 并行中对于数据的分片是逻辑而物理的,每个worker...

什么是PolarDB MySQL企业版

高可用和高可靠保障,数据安全可靠 共享分布式存储的设计,彻底解决了主从异步复制所带来的备库数据非强一致的缺陷,使得整个数据库集群在应对任何单点故障时,可以保证数据零丢失。数据多副本跨可用区部署,主节点故障后RTO。GDN集群间...

产品概述

什么是PolarDB PolarDB 是阿里巴巴自研的新一代云原生数据库,在计算存储分离架构下,利用了软硬件结合的优势,为用户提供具备极致弹性、高性能、海量存储、安全可靠的数据库服务。100%兼容MySQL和PostgreSQL生态,高度兼容Oracle语法。...

什么是云原生内存数据库Tair

什么选择云原生内存数据库Tair 丰富的产品形态 从访问延时、持久化需求、整体成本这三个核心维度考量,基于DRAM(Dynamic Random Access Memory)、NVM(Non-Volatile Memory)和ESSD云盘等存储介质,推出了 内存型、持久内存型、磁盘型 ...

泊松分布拟合

功能说明 泊松分布拟合组件支持对给定数据点进行泊松分布拟合,利用KS检验数据是否服从泊松分布,输出拟合后的概率分布,以及KS检验结果、泊松分布的期望(方差)。计算逻辑原理 泊松分布:泊松分布的概率密度函数为 泊松分布的参数是 单位...

高斯分布拟合

功能说明 高斯拟合分布组件支持对给定数据点进行高斯分布拟合,利用KS检验数据是否服从高斯分布,输出拟合后的概率分布,以及KS检验结果、高斯分布均值、标准差。计算逻辑原理 高斯分布:若随机变量 服从一个位置参数、尺度参数为 的概率...

FAQ

如何使用TSDB For InfluxDB®的CLI将数据写入一个默认的保留策略 数据类型 为什么不能查询布尔类型的field value?TSDB For InfluxDB®如何处理多个shard之间的field的类型差异?TSDB For InfluxDB®可以存储的最小和最大整数是多少?...

卡方分布拟合

功能说明 卡方分布拟合组件支持对给定数据点进行卡方分布拟合,利用KS检验数据是否服从卡方分布,输出拟合后的概率分布,以及KS检验结果、卡方分布自由度。计算逻辑原理 卡方分布:卡方分布是统计推断中应用最广泛的概率分布之一。其定义为...

文档修订记录

DataWorks数据安全治理路线 2023年12月更新记录 时间 特性 类别 描述 产品文档 2023.12.29 新增功能 数据开发 若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务,需先将已创建的数据源或集群绑定至数据开发...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库备份 DBS 云数据库 RDS 云数据库 Redis 版 数据传输服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用