常见问题-FAQ

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

步骤五:应用容灾

确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 页面,选择 恢复网络、...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 面板,选择 恢复...

EMR Kafka磁盘故障运维

当磁盘发生故障时,应及时完成相关故障的处理,及时恢复集群的容错能力。磁盘运维概述 本文从磁盘监控和磁盘故障恢复角度来介绍磁盘运维策略。磁盘监控 以下内容从Kafka服务层面以及ECS系统层面来简单了解一下磁盘的监控策略。Kafka服务...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

网络安全保护

网络分层模型可以参考下图:下面列举出一些常见的糟糕设计:将所有资源都创建在一个VPC或者vSwitch中,不同业务之间没有隔离会导致安全暴露的影响范围扩大 允许直接访问敏感数据,比如公网访问数据库、大数据的查询服务直接暴露在公网上...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:登录 混合云容灾管理控制台。单击 切换到连续复制型容灾。在 概览 页面,单击目标容灾站点对。在容灾中心页面,单击 受...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

如何管理故障

故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...

故障应急协同

故障应急协同群 故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

机器学习

MADlib机器学习模块主要解决以下问题:分类/回归问题:提供一系列算法如K最近邻、MLP多层感知神经网络、SVM支持向量机、决策树等算法来解决二元分类/回归问题,集成最小二乘法、GLM广义线性回归、逻辑回归、多项式回归等模型来解决回归问题...

机器学习(MADlib)

MADlib机器学习模块主要解决以下问题:分类、回归问题:提供一系列算法,如K最近邻、MLP多层感知神经网络、SVM支持向量机、决策树等算法来解决二元分类、回归问题,集成最小二乘法、GLM广义线性回归、逻辑回归、多项式回归等模型来解决回归...

查看并管理数仓分层

在 基本信息 区域,即可查看目标数仓分层的 英文缩写、英文名、中文名、负责人、分层归属、模型类型、创建人、创建时间,以及最近一次修改该数仓分层的 修改人 及 修改时间 等信息。您也可以根据业务需求,单击右上角的 编辑,修改目标分层...

什么是AI分布式训练通信优化库AIACC-ACSpeed

AIACC-ACSpeed优化原理 场景说明 使用单机多卡或多机多卡进行AI分布式训练时,分布式通信的线性度可作为单卡训练扩展到多卡的性能指标,线性度的计算方式如下:单机内部扩展性:线性度=多卡性能/单卡性能/单机卡数 多机之间扩展性:线性度=...

配置及使用数仓分层检查器

数仓分层检查器用于规范目标分层模型及指标的命名,制定模型及指标的命名规范,在模型和指标创建时,系统会根据该规范自动生成表名,模型发布成表后,使用方也能通过表名快速了解表的业务信息。本文为您介绍如何配置及使用数仓分层检查器...

线性回归

一、组件说明 线性回归模型通过找到一条最佳拟合直线(或超平面),将输入特征映射到一个连续数值输出。在模型训练过程中,采用最小二乘法(least squares)估计模型参数,即最小化输出结果与预测值之间的误差平方和。线性回归模型具有简单...

机器学习开发示例

例如下面的代码采用第一个模型(modelA),并根据特征(features)向您显示标签(原始销售价格)和预测(预测销售价格)%pyspark#运行线性回归模型,并展示数据 predictionsA=modelA.transform(ml_data)predictionsA.show(10)数据打印 步骤...

线性回归

功能说明 线性回归(Linear Regression)是分析因变量和多个自变量之间的线性关系模型。计算逻辑原理 回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中...

EasyCkpt:AI大模型高性能状态保存恢复

EasyCkpt是PAI为PyTorch大模型训练场景而开发的高性能Checkpoint框架,通过实现接近0开销的模型保存机制,提供了大模型训练全过程进度无损的模型保存与恢复的能力。目前EasyCkpt支持当前流行的两种大模型训练框架Megatron和DeepSpeed,本文...

分段多项式回归

功能说明 分段多项式回归是分段进行分析因变量和多个自变量之间的线性关系模型。计算逻辑原理 分段多项式:通过把输入变量的取值空间分割成连续的区间,然后在每个区间中进行多项式拟合得到的。分段多项式具有可拟合成任意形状的曲线和点的...

Pipeline部署在线服务

例如:需要部署线性回归模型用于在线预测,则线性回归训练组件和线性回归预测组件都需要运行成功。在线服务限制单输入单输出,因此需要从离线的Directed Acyclic Graph(DAG)图中选择单一串行链路进行部署。前提条件 已创建模型工作流...

偏最小二乘回归

功能说明 偏最小二乘回归是通过投影分别将预测变量和观测变量投影到一个新空间,来寻找一个线性回归模型。偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又...

逆向建模:物理表反向建模

当您的物理引擎中已有大量物理表,且希望通过DataWorks智能数据建模产品统一管理所有模型,则可使用逆向建模功能,将已有物理表反向建模至DataWorks的维度建模中。该功能帮助您无需再次执行建模操作即可快速创建模型,节省了大量的时间成本...

高可用和容灾设计

可通过集群可读地址访问备节点,在发生故障切换时,RDS的高可用系统会自动执行以下三个步骤:将一个备节点提升为主节点,该备节点从集群可读地址中移除,同时清除该备节点上的可读连接,此时集群可读地址会发生闪断。故障主节点从集群读写...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

逻辑回归二分类

一、组件说明 逻辑回归通过将线性回归模型的输出通过Sigmoid函数进行映射,将连续的预测值转换为概率值。Sigmoid函数具有“S”形状,可以将任意实数值映射为0和1之间的概率值,表示样本属于正例的概率。逻辑回归的训练过程是利用最大似然...

横向逻辑回归二分类

一、组件说明 横向逻辑回归通过将线性回归模型的输出通过Sigmoid函数进行映射,将连续的预测值转换为概率值。Sigmoid函数具有“S”形状,可以将任意实数值映射为0和1之间的概率值,表示样本属于正例的概率。横向逻辑回归的训练过程是利用...

AIPL模型筛选

AIPL模型筛选是基于 AIPL模型 的人群筛选,可按用户的AIPL模型类型或流转状态筛选。按类型筛选:选择处于A认知、I兴趣、P购买、L忠诚阶段的用户加入人群。按流转状态筛选:选择AIPL模型阶段发生变化的用户,例如从A认知阶段转化为P购买阶段...

灾备规划

RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,RPO就要求越小。RPO越小,往往要求数据备份、复制频率更高,对生产环境、网络的压力也会越大,成本通常也越高。RTO:指故障发生后,期望...

PS线性回归

线性回归(Linear Regression)是分析因变量和多个自变量之间的线性关系模型,参数服务器PS(Parameter Server)致力于解决大规模的离线及在线训练任务。PS线性回归支持千亿样本、十亿特征的大规模线性训练任务。组件配置 您可以使用以下...

功能更新记录

全部地域 2021-09-15 故障场景参数分层故障场景的配置参数分为故障配置(故障的基础参数配置)、影响范围(故障的爆破半径)、通用配置(场景通用参数,如“debug日志开关”等)、流程配置(节点等执行方式手动/自动、容忍度等),从而...

线性回归

线性回归(Linear Regression)是分析因变量和多个自变量之间的线性关系模型。组件配置 您可以使用以下任意一种方式,配置线性回归组件参数。方式一:可视化方式 在 Designer 工作流页面配置组件参数。页签 参数 描述 字段设置 选择特征列 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 混合云存储 表格存储 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用