设计原则

面向失败的架构设计原则 众所周知,系统异常事件是不可避免的,如网络延迟、硬件故障软件错误、突峰流量等,建议在系统设计阶段就要从这些异常事件引起的系统执行“失败”出发,提供冗余、隔离、降级、弹性等能力,旨在确保系统的高可用...

基于ack-lingjun-aiast组件实现集群自动化运维

该系统能够实时监测并分析系统的运行状态,快速检测故障并采取恢复措施,例如硬件故障、网络故障软件错误等,从而降低运维成本,提高系统可靠性和稳定性。组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,...

采集客户端数据的高可用方案

但是在一些相对极端的场景下,单集群可能由于一些预期外原因存在故障停服风险。针对该单集群故障风险,日志服务提供两种异地多活的客户端数据采集方案。方案比较 对比项 方案1:双写 方案2:数据加工复制+写入切换 部署复杂度 低 需要额外...

运维服务内容说明

因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

Windows系统的ECS实例ping外网地址提示“一般故障”...

问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒或安全防护软件 检查第三方杀毒软件或安全防火软件 ECS实例内操作系统TCP/IP协议栈损坏,例如注册表损坏。检查网卡配置信息 ECS实例内组策略中设置了错误...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

SSL-VPN连接常见问题

本文汇总了建立SSL-VPN连接时出现客户端连接失败、流量不通现象的常见原因并提供了相应的解决方案。常见问题快捷链接 客户端连接问题 客户端连接失败怎么办?客户端之前连接成功,但间歇性中断下线怎么办?仅部分客户端连接成功怎么办?SSL...

ECS资源复用

ECS资源复用版是MaxCompute按量付费类型中的一种实例规格,旨在将ECS闲置实例转换为可用的MaxCompute计算资源,该方式可以充分利用已有的计算资源,而不需要额外购买新的MaxCompute计算资源,从而在满足大数据处理需求的同时,提高资源利用...

集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

泛化协议设备接入相关问题

由于网络故障原因导致的异常断开,SDK会自动发起重连。如何批量生成设备证书?您可以直接使用物联网平台提供的SDK来调用API BatchRegisterDevice,批量生成设备证书。更多信息,请参见 下载云端SDK 和 BatchRegisterDevice。如何获取子...

概述

但随着各公司业务范围的扩展和软件系统架构持续迭代升级,系统的复杂度随之增加,面对更多的非预期事件风险,如各类软硬件故障、错误的变更、突发流量,甚至到光纤挖断、自然灾害等引起的整个机房不可用情况,如何保障系统稳定性具有很大...

连接池

选择合适的连接池软件可以提高数据库的性能和可扩展性,减轻数据库的负载压力,并提供更好的连接管理和故障处理能力。pgBouncer:支持数据库连接池功能,可以管理和复用数据库连接,减少应用程序和数据库之间的连接开销,并提高系统的并发...

产品服务条款

阿里云将消除您非人为操作所出现的故障,但因您原因和/或不可抗力以及非阿里云控制范围之内的事项除外。3.2.5.阿里云应严格遵守保密义务。4.用户数据的保存、销毁与下载 4.1.阿里云可能会使用您提交的注册账户的信息,向您发出产品、服务的...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

服务条款

阿里云将消除您非人为操作所出现的故障,但因您原因和/或不可抗力以及非阿里云控制范围之内的事项除外。3.2.6.阿里云应严格遵守保密义务。4.用户数据的保存、销毁与下载 4.1.阿里云可能会使用您提交的注册账户的信息,向您发出产品、服务的...

网络资源

网络资源是指用于节点之间通信和数据传输的硬件和软件资源,除了包括广域网、局域网、交换机、路由器,还包括常用到的专有网络、虚拟交换机、负载均衡、弹性公网、VPN、DNS、CDN等资源。在分布式系统中,网络资源的主要作用是支持节点之间...

服务条款

阿里云将消除您非人为操作所出现的故障,但因您原因和/或不可抗力以及非阿里云控制范围之内的事项除外。3.2.5.阿里云应严格遵守保密义务。4.用户数据的保存、销毁与下载 4.1.阿里云可能会使用您提交的注册账户的信息,向您发出产品、服务的...

ping不通云服务ECS(SAG-1000)

可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请跳转...

常见网络问题

可能原因如下:防火墙规则禁用了某些地址或端口 网络带宽比较小 设置了上行或下行的带宽限速 同时进行的备份任务很多,挤占带宽 杀毒软件可能影响备份服务正常运行 本地机器配置了代理,代理工作不正常 网络行为检测工具检测到非法内容限制...

商业化服务条款

阿里云将消除您非人为操作所出现的故障,但因您原因和/或不可抗力以及非阿里云控制范围之内的事项除外。3.2.5.阿里云应严格遵守保密义务。用户数据的保存、销毁与下载 4.1.阿里云可能会使用您提交的注册账户的信息,向您发出产品、服务的...

商业化服务条款

阿里云将消除您非人为操作所出现的故障,但因您原因和/或不可抗力以及非阿里云控制范围之内的事项除外。3.2.5.阿里云应严格遵守保密义务。用户数据的保存、销毁与下载 4.1.阿里云可能会使用您提交的注册账户的信息,向您发出产品、服务的...

无法连接到同一个云连接网内的本地客户端

可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标PC环境的网络故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看当前设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。...

ping不通云服务(SAG-100WM)

可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请参见...

使用CLB访问Kubernetes上的EDAS应用

约束限制 禁止从负载均衡控制台直接修改EDAS代购的CLB实例的监听配置(含监听和证书),这可能导致CLB控制台修改的配置回退,引发应用入口相关的故障。若复用CLB来暴露K8s上EDAS应用,则创建的CLB要和K8s集群在同一个VPC内。新建CLB或复用...

产品优势

提高开源组织版本管理效率,快速支持业务创新 更多开源软件支持 更高软件版本支持 覆盖从边缘到AI全场景 企业级的服务支持,降低运维成本,缩短故障处理时间 来自阿里云和Cloudera的7*24小时大数据专家服务支持 快速定位使用中遇到的问题,...

GxP欧盟附录11标准合规包

对于关键系统,应提供最新的系统描述,详细说明物理和逻辑安排、数据流和与其他系统或进程的接口、任何硬件和软件先决条件以及安全措施。运行中的ECS实例无待修复漏洞 ECS实例在云安全中心无指定类型和指定等级的待修复漏洞,视为“合规”...

使用CLB访问K8s上的EDAS应用

约束限制 禁止从负载均衡控制台直接修改EDAS代购的CLB实例的监听配置(含监听和证书),可能导致负载均衡控制台修改的配置回退,引发应用入口相关的故障。若复用CLB来暴露K8s上EDAS应用,则创建的CLB要和K8s集群在同一个VPC内。新建CLB或...

共享内存通信(SMC)常见问题

问题原因及解决方案 由于某些原因,导致应用创建的SMC连接回退到TCP,此时无法使用RDMA加速网络通信。详细的回退排查和解决方法,请参见 启用SMC后回退无法使用RDMA加速。应用的网络通信开销在整个应用中占比较小。例如应用是倾向于CPU密集...

附录:SOFAStack 产品目录

异构系统集成场景 统一集成:降低企业内部系统集成成本,无缝连接不同的软件应用程序。遗留系统兼容:选择最适合技术栈,在转型过程中兼容遗留系统,加速企业转型升级。集中管理:集中访问所有数据,提高研发效率。混合云场景 API 全生命...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

DDH常见问题

如果您因为过保迁移等原因被分配了一台新的物理服务器,您的DDH会对应一个新的机器码,该机器码就是这台新物理服务器的唯一识别码。DDH故障时是否会自动迁移到健康的DDH?阿里云为您提供DDH故障迁移服务,开启服务后,DDH因故障停机时,会...

Windows系统异常重启以及蓝屏的处理方法

方案一:在 事件查看器 中,打开 系统日志,在问题发生时间点,如果看到有来源”volmgr”抛出的 事件 ID 为 46 的事件,说明之前发生过蓝屏,但是由于没有配置页面文件以及内存转储文件的配置,导致dump收集失败,故障转储初始化未成功。...

AIOps 解决方案专家服务内容说明

智能故障发现解决方案 基于调研与评估的结果,为客户设计智能故障发现解决方案,包含:多账号统一监控数据接入,并根据应用分组为客户设计AI算法能力用于实时故障发现,并根据分析结果智能定位根因,提供实时异常检测的稳定性方案,保障...

漏洞修复失败原因排查

Transaction Check Error ErrorMessage Transaction Check Error 可能原因 软件包冲突。解决方案 查看错误详情信息中的yum执行信息,根据关键字 conflicts with file 确认存在冲突的软件包。在确认删除存在冲突的软件包不会影响业务的情况...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

出错提示“failed to leapp upgrade”

问题原因 可能原因如下:软件包下载安装失败/etc/fstab 挂载配置检查失败 解决方案 软件包下载安装失败 远程连接源服务器。具体操作,请参见 连接实例。执行以下命令,在SMC客户端目录下的日志目录查看报错信息。查看SMC客户端目录的具体...

ADP底座介绍

ADP-Local:跟随软件产品交付部署到本地环境中的本地运维控制台。为现场运维人员提供应用健康的可观测性和可视化的运维管控操作用户界面。应用场景 应用场景:为应用提供托管服务以及稳定运行能力。提供一整套健全强大的托管运维体系及可视...
共有191条 < 1 2 3 4 ... 191 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享带宽 云数据库 RDS 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用