业产技融合分层协作方案

什么是业产技分层协作?业产技」是 业务团队、产品团队、技术团队 的缩写,代表研发流程中的三个典型的职能团队。在经典的研发协作流程定义中,更偏向于技术相关职能角色的分工定义,例如需求管理、迭代排期、缺陷跟踪等协作流程,即使这些...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

强弱依赖治理概述

如果商品详情页对下游依赖是强依赖,例如当下游依赖 库存、优惠、物流 出现故障的时候,将导致业务流程无法推进,会出现类似如下的说明,严重影响用户体验。如果商品详情页对下游依赖是弱依赖,例如当下游依赖 评价、店铺 等系统出现故障的...

应用容灾

应用活的技术方案 应用活的技术方案一般分为三部分,分别为应用层、数据层和云平台。三部分组件遵循应用活的设计标准,支撑应用构建应用活架构能力。应用层是业务应用流量主经的链路,基本构成可分为三部分:接入网关:接入网关...

网络架构容灾

不同部门和团队使用云产品时,一般会使用个VPC把业务隔离,不同的VPC承载不同部门或团队的业务。但不同团队和部门间在特定场景下也需要互相访问双方的服务,这时就需要实现不同VPC间的互通。实现不同VPC之间的互通在阿里云上有两个主要...

客户案例

故障场景下恢复时间比较长,因此业务上通常实现一些高可用方案如Failover等等提高故障恢复时间,同时也引入了大量的复杂度。成本和性能,对于传统数据库而言,成本分为机器成本和许可证(license)成本。不同于传统的金融企业,...

灾备规划

云容灾服务因免去了灾备中心建设、硬件系统采购、运维等复杂的工作,加上资源可弹性扩展、按量付费的特性,这些都降低了规划工作的难度。您只需花少量的时间进行选型、规划等就可以轻松使用阿里云作为您的容灾服务提供者。本文将从需求分析...

什么活容灾

活容灾MSHA(Multi-Site High Availability)是在阿里巴巴电商业务环境演进出来的活容灾商业化产品,是应用高可用服务AHAS的核心模块,为客户提供容灾架构建设能力。横向支持容灾架构的上线、运维、演练、切流,升级到下线。纵向支持...

读写访问文件类问题

但在进程或客户端并发写同一个文件的场景中(典型的例如并发写同一个日志文件),各进程分别维护了独立的文件描述符及写入位置等上下文信息,而NFS协议本身并没有提供Atomic Append语义的支持,因此可能会出现写覆盖、交叉、串行等异常...

调用链采样配置最佳实践

基于核心业务采集角度考虑,针对核心接口定向配置高比例采样率 接入可观测的诸多应用中,一般会根据业务属性区分核心应用和非核心应用;对于单个应用内,也有核心接口和非核心接口的区别。例如电商系统中,商品详情和购买流程的业务逻辑...

CLB健康检查FAQ

如上所述,由于健康检查成功后,负载均衡服务器直接发送TCP RST包中断了连接,并没有做进一步的业务数据交互,导致上层业务(例如Java连接池等)认为相应的连接是异常的,所以会出现 Connection reset by peer 等错误信息。解决方案 更换...

Nginx Ingress异常问题排查

本文介绍关于Nginx Ingress异常问题的诊断流程、排查思路、常见检查方法和解决方案。本文目录 类别 内容 诊断流程 诊断流程 排查思路 排查思路 常见排查方法 通过日志服务SLS的Controller Pod查看访问日志 检查Controller Pod中错误日志 在...

Nginx Ingress异常问题排查

本文介绍关于Nginx Ingress异常问题的诊断流程、排查思路、常见检查方法和解决方案。本文目录 类别 内容 诊断流程 诊断流程 排查思路 排查思路 常见排查方法 通过日志服务SLS的Controller Pod查看访问日志 检查Controller Pod中错误日志 在...

数据面质量

接下来,除了建设新功能外,蚂蚁团队还在技术风险领域做更建设。在质量这块,主要包括:在这个过程中,蚂蚁团队期望能够引入一些新的测试技术,能够有一些新的质量创新,以便把 Service Mesh 做的越来越好。参考资料 MOSN Github ...

Operator

新风险及解决方案 在上述应对策略下,会出现新的风险,蚂蚁也提出了对应的解决方案,说明如下:风险:Sidecar 与应用“共享”分配到的内存资源,导致在异常情况(比如内存泄露)下,Sidecar 跟应用抢内存资源。解决方案:通过扩展 Pod Spec...

RPC 常见问题

什么 SOFABoot 应用已经启动,但服务没有发布成功?您可以根据以下几个情况进行排查:应用非正常启动 通常可以查看 health-check 日志。如果有 error 日志,可以根据相关信息进行排查,常见的故障信息包括:redis 没有正确配置。一个服务...

DAS Auto Scaling弹性能力

“紧急”告警发出稍晚,业务受到突发情况影响的时间就相对较长,对业务产生影响,甚至引发业务故障。在实时监控的场景下,当我们面临一个突发的异常点时,很难预判下一时刻是否还异常。因此,是否需要应急告警变得比较难以决断。对于...

K8s应用运维管理最佳实践

关于容器镜像服务的信息,请参见 什么是容器镜像服务ACR。关于如何制作应用镜像并上传到容器镜服务,请参见 制作应用镜像。应用配置信息 建议为应用配置2个及以上Pod实例。配置个Pod实例,可有效避免单个Pod实例故障而导致的应用无法...

挂载访问FAQ

使用Linux操作系统在NFS文件系统中执行ls命令时,为什么会返回523错误?挂载NFS文件系统时,返回mount.nfs:No such device该如何处理?如何解决服务器开机自启动挂载NFS文件系统失败?挂载NFS文件系统时,返回mount:can't find/root/nas in...

远程连接FAQ

本文介绍在远程连接轻量应用服务器过程中可能存在的问题、排查思路和相应的解决方案。排查思路 如果无法远程连接轻量应用服务器时,阿里云推荐您按照以下思路排查问题。以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低...

监控分析平台对比

本文从运维和SRE团队角度介绍监控分析平台的建设与选择。背景信息 运维和SRE团队承载着重要的职责,其工作内容复杂而广泛,从应用部署、性能和可用性监控、告警、值班,到容量规划、业务支撑等都有涉及。随着云原生、容器化和微服务的快速...

常见问题

本文汇总了 云数据库ClickHouse 的常见问题及解决方案。选型与购买 云数据库ClickHouse和官方版本对比了哪些功能和特性?购买实例时,推荐选择哪一个版本?单双副本实例各有什么特点?购买链路资源时显示“当前区域资源不足”,应该如何...

专属解决方案

对于每个企业,FinOps的落地方案应该因人而异。阿里云结合阿里集团内部实践经验、外部客户支持经验,沉淀了一些方法论与工具,本文节选部分进行介绍。FinOps的背景与实践意义 什么是FinOps 技术领域的进步往往来自于打破原先的边界,例如...

什么要选择云备份

数据面临的风险 企业数据面临勒索病毒、系统故障、自然灾害和运维事故影响,意外导致数据丢失和损害,其带来的影响是巨大的。行业安全与合规要求 网络安全等级保护2.0、个人信息保护法、关键信息基础设置安全保护条例等各种行业规范和...

上海博卡:借助云效+ACK实现3分钟快速发布

在DevOps上我们也是摸着石头过河,上面分享的方法只是我们团队当下寻找到的最佳方案,当然其中也有很不足,我们也在不断的摸索和改进,这篇文章分享我们的DevOps转型过程就是希望可以跟大家交流,共同探讨和摸索适合自己团队的模式。...

Windows系统的ECS实例ping外网地址提示“一般故障”...

本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

故障演练

有损演练是指直接在线上真实业务环境注入异常进行演练,演练模拟的真实有效性高,为了平衡业务影响一般会选择最核心场景、在业务最低峰期做演练,而且演练频次相对较小,例如为了验证活容灾能力的机房断网演练,一般是一个月一次的演练...

如何排查无法连接MongoDB实例的问题?

当某个节点出现故障时,不会因为主备切换而影响应用的读写操作,更信息,请参见 副本集实例连接说明。请为业务设计重连机制和异常处理能力,连接闪断后可自动重连,保障业务稳定运行。常见原因四:连接地址中的账号密码包含特殊字符!()_+...

业务连续性

建议您根据本文介绍的相关方案,来建设您的边缘计算应用的业务连续性能力。最佳实践 实例容灾 为了确保高可用,应用必须能处理高负载、避免单节点故障造成业务中断。这些可以通过 边缘负载均衡 ELB 来实现。为此,您可以先在个 ENS ...

流水单据型业务场景活实践

下单业务是典型的流水单据型业务场景,相比导购,是更为复杂的读写业务,结合业务场景和业务容灾诉求,异地活 是适合此业务的容灾建设方案。异地活容灾架构改造 基于MSHA活容灾解决方案,可以快速的帮助业务进行异地活容灾建设。...

网站耗资源(客户程序故障)常见问题

什么会出现网站耗资源(客户程序故障)?常见的造成网站耗资源(客户程序故障)现象的原因如下所示:网站程序编写不合理,例如ASP程序变量没有清空。网站数据库调用频繁,例如当ACCESS数据库的容量比较大时(超过100 MB以上),性能可能...

企业单AZ架构升级到AZ

准备阶段:由于基础版只有一个数据库节点,变更配置时会出现较长时间中断,请选择非高峰期内进行操作以减少对业务的影响。执行升级:参考文档 基础系列升级为高可用系列 进行操作。注意事项:变配过程中会有约30秒的闪断。在提交变配订单至...

支持计划

业务不可用分钟(包含专项应急小组会诊)一般问题小时一般咨询小时 7×24小时专属企业钉钉群快速响应,提供业务咨询、自动预警、故障处理等服务,并可由位专家进行疑难应急会诊案例严重性的响应时间:业务不可用分钟(包含专项应急小组...

常见问题

当您使用阿里云E-MapReduce(简称EMR)on ACK 时,可以根据本文查找对应的问题场景和解决方案。为什么当ShuffleServiceMaster组件中容器组数量为1时,无法启动?为了保证高可用和正常运行,建议至少将该组件的容器组数量配置为3个。这是...

数据库代理常见问题

如果您在使用RDS MySQL数据库代理过程中存在疑问或遇到问题,可以参考本文查看解决方案。目录 什么是数据库代理?通用型代理和独享型代理有什么区别?数据库代理是否占用主实例的QPS或者TPS?数据库代理地址和常规地址是否是一个地址?开通...

Tair Proxy特性说明

云原生内存数据库Tair 的集群架构和读写分离架构中,代理服务器(Proxy)承担着路由转发、负载均衡与故障转移等职责,可以帮助您简化客户端的逻辑,同时支持数据库(DB)、缓存热点数据等高级功能。通过了解Proxy的路由转发规则和特定...

产品系列

部署方案 云数据库 OceanBase 标准版(云盘)、标准版(本地盘)和标准版(历史库)支持机房部署、双机房部署和单机房部署三种部署方案,标准版(Key-Value)仅支持双机房部署和单机房部署两种部署方案,详情参见 部署方案。对性能和...

云盘存储卷FAQ

问题原因 部分ECS任务需要串行,当有个请求同时发送到ECS时,会出现ECS任务冲突报错。解决方案 等待一段时间,CSI会自动重试。若您其他任务已经完成,CSI重试时会成功挂载云盘。若问题仍未解决,请 提交工单 给ECS团队处理。启动挂载了云...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...
共有102条 < 1 2 3 4 ... 102 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
应用高可用服务 数据库自治服务 负载均衡 Node.js 性能平台 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用