相关性分析

皮尔逊相关系数:用于衡量两个数据集是否在一条线上面,即针对线性数据的相关系数计算,针对非线性数据便会有误差。肯德尔相关系数:用于反映分类变量的相关性,即针对无序序列的相关系数计算,非正太分布的数据。斯皮尔曼相关系数:用于非...

概述

AnalyticDB PostgreSQL版 向量分析可以通过AI算法提取结构化数据的特征,并利用特征向量作为结构化数据的唯一标识,帮您快速且低成本地实现对结构化数据检索和对结构化数据关联分析。向量数据库简介 在现实世界中,绝大多数的数据都...

泊松分布拟合

功能说明 泊松分布拟合组件支持对给定数据点进行泊松分布拟合,利用KS检验数据是否服从泊松分布,输出拟合后的概率分布,以及KS检验结果、泊松分布的期望(方差)。计算逻辑原理 泊松分布:泊松分布的概率密度函数为 泊松分布的参数是 单位...

高斯分布拟合

功能说明 高斯拟合分布组件支持对给定数据点进行高斯分布拟合,利用KS检验数据是否服从高斯分布,输出拟合后的概率分布,以及KS检验结果、高斯分布均值、标准差。计算逻辑原理 高斯分布:若随机变量 服从一个位置参数、尺度参数为 的概率...

卡方分布拟合

功能说明 卡方分布拟合组件支持对给定数据点进行卡方分布拟合,利用KS检验数据是否服从卡方分布,输出拟合后的概率分布,以及KS检验结果、卡方分布自由度。计算逻辑原理 卡方分布:卡方分布是统计推断中应用最广泛的概率分布之一。其定义为...

品牌升级

无论是数据湖中的非结构化或半结构化数据,还是数据库中的结构化数据,您都可使用 AnalyticDB for MySQL 构建企业的数据分析平台,同时完成高吞吐离线处理和高性能在线分析,实现降本增效。此次品牌升级,存量分析型数据库MySQL版(ADS)...

产品优势

无论是数据湖中的非结构化或半结构化数据,还是数据库中的结构化数据,您都可使用 AnalyticDB MySQL 构建企业的数据分析平台,同时完成高吞吐离线处理和高性能在线分析,实现降本增效。弹性能力和扩展性 AnalyticDB MySQL版 采用云原生技术...

分段多项式回归

参数说明 IN端口 参数名 参数描述 是否必填 输入数据类型 数据源类型 特征变量 配置模型特征列 是 整数或浮点数 说明 若存在数值数据,则会抛出异常。CSV组件。IGateOffline组件。平台上其他数据处理组件。按照平台组件开发的自定义组件...

高斯过程回归

功能说明 高斯过程回归是使用高斯过程先验对数据进行回归分析的非参数模型。计算逻辑原理 高斯过程回归中支持三种核函数:高斯核:,其中尺度因子,尺度 是高斯核函数的参数。线性核:,其中偏移 和尺度因子,是线性核函数的参数。二次有理...

逻辑回归

参数说明 IN端口 参数名 参数描述 是否必填 输入数据类型 数据源类型 特征变量 配置模型特征列 是 整数或浮点数 说明 若存在数值数据,则会抛出异常。CSV组件。IGateInOffline组件。平台上其他数据处理组件。按照平台规范开发的自定义...

数据使用诊断

DataWorks的数据使用诊断,为您提供了对当前DataWorks工作空间的数据内容及数据隐私的安全保护能力,以及诊断相关安全问题的最佳实践及解决方案,帮助您快速建立数据使用时和使用后的基本安全体系。进入数据使用诊断 登录 DataWorks控制台...

冷热分层

Delta Lake是新型数据湖方案,推出了数据流入、数据组织管理、数据查询和数据流出等特性,同时提供了数据的ACID和CRUD操作。通过结合Delta Lake和上下游组件,您可以搭建出一个便捷、易用、安全的数据湖架构。在数据湖架构设计中,通常会...

动态特征提取

线性趋势:对采样数据序列进行线性拟合,取线性模型的系数,作为输出。变化趋势:对采样数据序列做Mann-Kendall测试(曼肯德尔检验),若“无趋势”,则输出0;反之,则取slope参数,作为输出。曼肯德尔检验:Mann-Kendall 趋势检验(有时...

透明数据加密概述

RDS PostgreSQL支持透明数据加密(Transparent Data Encryption,简称TDE),对数据文件进行实时加密和解密,保护用户数据隐私,本文介绍透明数据加密的基本概念和加密原理。什么是透明数据加密 透明数据加密指对数据文件执行实时I/O加密和...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接,通过交互式分析Hologres连接DataWorks数据服务开发并生成API,快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

滤波

是 整数或浮点数 说明 若存在数值数据,则会抛出异常 不限 OUT端口-输出参数 参数名 参数描述 输出数据类型 OUT 滤波后的输出,与IN端口配置的输入参数一致。浮点数 其他参数 参数名 参数描述 是否必填 参数默认值 参数范围 滤波类型 ...

调试实时任务

Dataphin支持对开发的实时任务代码进行数据采样或者手动上传并进行本地调试,以帮助您保障代码任务的正确性,避免人为错误或遗漏。本文将为您介绍如何调试实时任务。使用限制 Blink仅支持引擎版本3.6.0及以上进行本地调试。不支持...

组件参考:所有组件汇总

推荐方法 FM算法 FM(Factorization Machine)算法兼顾特征之间的相互作用,是一种非线性模型,适用于电商、广告及直播的推荐场景。ALS矩阵分解 交替最小二乘ALS(Alternating Least Squares)算法的原理是对稀疏矩阵进行模型分解,评估...

线性回归

线性回归模型具有简单、易于理解和解释的特点,同时可以通过多项式扩展等方法处理非线性数据,具有较高的泛化能力和预测准确率。但是,线性回归模型对于离群点、噪声数据和非线性关系的数据比较敏感,需要进行特征标准化和正则化处理。组件...

PS线性回归

线性回归(Linear Regression)是分析因变量和多个自变量之间的线性关系模型,参数服务器PS(Parameter Server)致力于解决大规模的离线及在线训练任务。PS线性回归支持千亿样本、十亿特征的大规模线性训练任务。组件配置 您可以使用以下...

多值数据查询

多值模型数据查询 mquery 请求路径和方法 请求路径 请求方法 描述/api/mquery POST 查询数据 重要 多值模型数据和原来写入的单值模型数据不兼容。单值模型数据需要通过原有的/api/put 接口进行写入。同时多值写入数据需要通过/api/mquery ...

单值查询数据

算子 描述 插值方法 avg 平均值 线性插值(斜率拟合)count 数据点数 插0 mimmin 最小值 插最大值 mimmax 最大值 插最小值 min 最小值 线性插值 max 最大值 线性插值 none 不做计算 插0 sum 求和 线性插值 zimsum 求和 插0 Filters说明 有...

单波段拉伸

说明 Gamma校正是一种用于调整图像亮度和对比度的非线性变换技术,可以纠正由于显示设备的不一致性而导致的图像亮度失真问题。后期效果 辉光 强度:设置辉光的强度值,范围为0~5。半径:设置辉光的半径大小,范围为0~1。阈值:设置辉光的...

RGB色彩

说明 Gamma校正是一种非线性变换技术,用于调整图像的亮度和对比度。它可以纠正由于显示设备的不一致性而导致的图像亮度失真问题。后期效果 辉光 强度:设置辉光的强度值,范围为0~5。半径:设置辉光的半径大小,范围为0~1。阈值:设置辉光...

备份大小

图中的 归档备份 是指已保留超过2年(730天)的数据备份,数据 是指归档的数据备份。备份大小说明 与存储空间使用量的关系 数据备份和日志备份存放在备份空间,都不占用存储空间。日志分为本地日志和日志备份。日志 说明 费用 作用 本地...

资产目录

资产目录为您展示不同资产对象类型的元数据信息,同时支持搜索、访问及收藏等功能,为您提供高效、快捷、准确的数据查找入口。本文为您介绍资产目录相关详情。页面入口 在Dataphin首页,单击顶部菜单栏的 资产,默认进入数据 目录 页面。...

功能概述

向量分析继承了分析型数据库MySQL版的MPP查询架构以及全索引结构,通过SIMD指令加速、高效索引算法、混合检索CBO策略以及低成本存储技术,帮助您实现高性能、低成本的非结构化数据近似查询和分析。典型应用场景 通过分析型数据库MySQL版...

结构化分析

功能说明 向量分析实现原理是通过AI算法提取结构化数据的特征,然后利用特征向量唯一标识结构化数据,向量间的距离用于衡量结构化数据之间的相似度。AnalyticDB PostgreSQL版 向量检索分析基于MPP查询架构构建,帮助用户实现基于SQL...

偏最小二乘回归

偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。计算逻辑原理 偏最小二乘...

岭回归预测

算法原理 岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于...

2023年

2023-04-06 全部地域 作业运维(新版)2023-03 功能名称 功能描述 发布时间 发布地域 相关文档 支持使用Spark和MapReduce任务处理External Volume中的非结构化数据 MaxCompute支持使用Spark和MapReduce任务在仓内处理基于OSS的External ...

线性回归

参数说明 IN端口 参数名 参数描述 是否必填 输入数据类型 数据源类型 特征变量 配置模型特征列 是 整数或浮点数 说明 若存在数值数据,则会抛出异常。CSV组件。IGateOffline组件。平台上其他数据处理组件。按照平台组件开发的自定义组件...

数据扫描和识别

支持扫描的数据源类型如下:结构化数据:RDS、PolarDB、PolarDB-X、MongoDB、OceanBase、自建数据结构化数据:OSS 大数据:TableStore、MaxCompute、ADB-MYSQL、ADB-PG 数据源授权完成后需要多长时间完成扫描?DSC 完成数据源授权后,...

岭回归训练

算法原理 岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于...

LightGBM

参数说明 IN端口 参数名 参数描述 是否必填 输入数据类型 数据源类型 特征变量 配置模型特征变量,用数据的特征变量去对目标变量进行预测。是 整数或浮点数 说明 若存在数值数据,则会置为NaN。CSV组件。IGateOffline组件。平台上其他...

支持的数据库

数据同步 数据同步功能帮助您实现数据源之间的数据实时同步,适用于数据异地多活、数据异地灾备、本地数据灾备、跨境数据同步、查询与报表分流、云BI及实时数据仓库等多种业务场景。同步支持的数据库、版本和同步类型以及配置文档,请参见...

划分数据

数据仓库是面向主题(数据综合、归类并进行分析利用的抽象)的应用。数据仓库模型设计除横向的分层外,通常也需要根据业务情况进行纵向划分数据域。数据域是联系较为紧密的数据主题的集合,是业务对象高度概括的概念层次归类,目的是便于...

外部表常见问题

如果只有1个,由于压缩方式下的非结构化数据不支持拆分,所以只能生产1个Mapper,导致处理速度较慢。建议您在OSS对应的外部表路径下,将OSS大文件拆分为小文件,从而增加读取外部表生成的Mapper数量,提升读取速度。使用SDK搜索MaxCompute...

基本概念

数学规划求解常见的子问题类别还有混合整数规划(Mixed Integer Programing,MIP)、非线性规划(Nonlinear Programing,NLP)等。除此外,当前还有 仿真优化 和 在线优化 类别能力,可联系我们获取。本地运行版 本地运行版,简称本地版,是...

库表结构优化

要做好库表结构设计和优化,用户通常需要关注以下信息:数据库引擎架构 用户需要了解数据库引擎的存储和计算架构特点,才能结合业务的数据分布特征与业务场景特征,进行数据建模,从而设计出符合引擎架构特点的数据表结构。SQL特征差异 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 数据库备份 DBS 云数据库 RDS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用