围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

同城多活常见问题

基本概念 逻辑集群概念 可用区概念 同可用区多个逻辑集群优先 支持 不支持 故障场景RPC切零 支持 不支持 支持的服务 微服务 消息 分布式任务 微服务 消息是基于Shutdown机制实现多活么?不是。因为这样会涉及业务重启恢复,如果每次容灾...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

常见问题

运维管理 容器应用服务常见问题 经典应用服务常见问题 中间件 SOFABoot 常见问题 微服务常见问题 微服务故障排查之 DRM 微服务故障排查之限流 微服务故障排查之 RPC 服务网格-故障排查 消息队列常见问题 任务调度常见问题 分布式链路跟踪...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

数据导入常见问题

数据导入过程中,发生远程过程调用(Remote Procedure Call,简称RPC)超时问题,该如何处理?报错“Value count does not match column count”,该如何处理?报错“ERROR 1064(HY000):Failed to find enough host in all backends.need:3...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

概述

多种编程界面:支持 XML、动态客户端、Standalone 模式等多种编程界面。流量转发:支持应用之间的流量转发。链路追踪:支持网格外部应用调用网格内部应用并形成一个完整的链路追踪信息 链路数据透传:支持应用调用上下文中存放数据,达到...

故障演练

但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有太多的机会验证,往往都是在真实故障中暴露。故障演练就是这个背景下诞生的,沉淀通用的故障场景,...

混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...

mPaaS 适配 targetSdkVersion 28

完成上述适配后,虽可避免 crash,但仍可能出现在 Android 8.0 设备上锁定方向失效的情况,请确保您的 Activity 不会因旋转屏幕发生异常(例如重走生命周期导致某些成员变量为空)。Android 8.0 系统相关源码:回归测试 全量回归测试的设备...

常见问题

无论 SOFARegistry 是否宕机,SOFARPC 框架对服务提供者调用失败的情况,做了两方面的容错处理:调用重试:您可以配置调用重试,当发生非业务错误导致的请求失败时(例如网络超时等),会尝试重试(随机调用一个服务提供者重试)。...

更新故障时间线

PROBLEM_KEY_NODE content String Body 否 故障分析 节点内容 time String Body 否 2021-01-08 10:10:10 发生时间 problemId Long Body 否 234 故障id clientToken String Body 否 c26f36de-1ec8-496a-a828-880676c5ef81 幂等标识 返回数据...

YARN高可用特性使用指南

YARN高可用特性主要包括以下三个方面:RM HA(ResourceManager High Availability)能够支持在不同节点上启动多个ResourceManager进程,可以避免单点故障。更多内容,请参见 ResourceManager High Availability。RM有状态重启...

创建故障时间线节点

创建故障时间线节点。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST...

进阶操作

完成智能投放组件的 Android 客户端接入和基本的展位配置后,您还可以进行一些其它设置,例如控制弹屏的最大范围、强制全量刷新所有的展位、设置 RPC 请求的拓展参数等。下面是对这些进阶操作的详述。控制弹屏的最大范围 适用场景:当希望...

配置 Bolt 服务

Bolt 服务的名称源自 RPC 使用的底层通信框架 Bolt。相对于传统的 WebService,Bolt 支持更加复杂的对象,序列化后的对象更小,且提供了更为丰富的调用方式(sync、oneway、callback、future 等),支持更广泛的应用场景。在 SOFA 中,Bolt...

产品架构

服务熔断 服务熔断主要目的是当某个服务故障或者异常时,如果该服务触发熔断,可以防止其他调用方一直等待所导致的超时或者故障,从而防止雪崩。产品架构如下:Provider App:指服务提供端发布服务,并向注册中心注册。Consumer App:指...

DescribeVulList-根据漏洞类型查询对应漏洞信息

com.xxl.rpc.util.XxlRpcException: xxl-rpc request data is empty.\tat com.xxl.rpc.remoting.net.impl.servlet.serve" Ip string漏洞关联资产的公网 IP 地址。1.2.XX.XX PrimaryId long 漏洞 ID。111 Os string 操作系统名称。centos Tag ...

常见问题

如果您是基于 SDK 方式使用分布式事务,就需要在引入的分布式事务 SDK 的 pom.xml 中加入相关依赖,详见开发指南。开通分布式事务之后,SOFABoot、Dubbo、消息队列、数据访问代理、RDS、MySQL、Oracle、OceanBase 能否都加入分布式事务?...

将应用从HSF架构迁移到Dubbo(Ali-Tomcat)

在web.xml文件中将 hsf-provider-beans.xml 替换为 dubbo-provider-beans.xml。只需要将 hsf-provider-beans.xml 替换为 dubbo-provider-beans.xml。DOCTYPE web-app PUBLIC"-/Sun Microsystems,Inc./DTD Web Application 2.3/EN"...

使用Prometheus监控E-MapReduce

本文介绍如何使用Prometheus监控E-MapReduce(简称EMR)。前提条件 创建EMR集群,具体操作,请参见 创建集群。使用限制 目前仅Prometheus实例 for ECS类型实例支持该组件接入。步骤一:开启Exporter端口 创建完EMR集群后,系统会默认在ECS...

使用Prometheus监控E-MapReduce

本文介绍如何使用Prometheus监控E-MapReduce(简称EMR)。前提条件 创建EMR集群,具体操作,请参见 创建集群。使用限制 目前仅Prometheus实例 for ECS类型实例支持该组件接入。步骤一:开启Exporter端口 创建完EMR集群后,系统会默认在ECS...

常见问题

Android 客户端 使用热修复后,和 RPC 有关的调用发生 apache http 相关的 crash 请参见 取消支持 Apache HTTP 客户端 引入 apache http client,禁止使用导入 Jar 包或者 gradle implementation/compile 的方式导入 http client。...

发布 SOFARPC 服务

RPC 是日常开发中最常用的中间件,本文主要说明如何发布一个 RPC 服务。前提条件 已完成环境搭建。具体步骤,请参见 搭建环境。已下载 示例工程。已将工程导入 IDE 工具。具体操作,请参见 快速入门。发布 SOFARPC 服务 要发布一个 RPC ...

实时发布常见问题

iOS 客户端 热修复错误码 以下表格显示错误码及其含义。错误码 含义 300 未知错误 301 本地 patch 文件为空。请检查 patch 文件是否...RPC 调用相关 如果通过 RPC 请求进行资源调用的过程中出现异常,请参考 无线保镖结果码说明 进行排查。

android_content_ActivityNotFoundException

解决方案 无法找到对应的Activity时抛出此类异常,一般发生在 AndroidManifest.xml 文件没有配置需要的Activity路径所导致的或手机中确实无此应用,建议检查AndroidManifest文件Activity路径并在启动Activity处捕获异常。代码示例 android....

Apache HDFS透明缓存加速

jindofsx.hdfs.XXX.dfs.namenode.rpc-address.nn1 表示hdfs-site.xml中 dfs.namenode.rpc-address.XXX.nn1 的值。例如:master-1-1:8020。jindofsx.hdfs.XXX.dfs.namenode.rpc-address.nn2 表示hdfs-site.xml中 dfs.namenode.rpc-address....

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

自动故障剔除

自动故障剔除功能会自动监控 RPC 调用的情况,当某个节点出现故障时,可对故障节点进行权重降级,并在节点恢复健康时进行权重恢复。目前支持 Bolt 协议。配置方式 将自动故障剔除的参数配置到 SOFABoot 中的 application.properties 即可。...

自定义线程池

SOFARPC 支持自定义业务线程池,可以为指定...XML 方式 如果采用 XML 的方式发布服务,您可以先设定一个 class 为 com.alipay.sofa.rpc.server.UserThreadPool的线程池的 Bean,然后设置到<sofa:global-attrs>标签的 thread-pool-ref 属性中。...

操作流程

本文介绍使用云盘异步复制容灾的基本操作流程。操作流程 在云备份服务控制台,实现对关键应用的容灾保护,主要步骤包括如下:步骤一:资源规划。...该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。

操作流程

本文介绍使用云盘异步复制容灾的基本操作流程。操作流程 在混合云容灾服务控制台,实现对关键应用的容灾保护,主要步骤包括如下:步骤一:资源规划。...该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。

步骤七:故障切换

该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。故障恢复类型 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再...

步骤七:故障切换

该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。故障恢复类型 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 全局事务服务 (文档停止维护) 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用