自助诊断GPU节点问题

应用程序遭遇到GPU不可纠正的显存ECC错误时,NVIDIA错误抑制机制会尝试将错误抑制在发生硬件故障应用程序,避免该错误影响GPU节点上运行的其他应用程序。当抑制机制成功抑制错误时,会产生该事件,仅出现不可纠正ECC错误的应用程序受到...

基本概念

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

什么是混合云容灾服务

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

灾备规划

RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,RPO就要求越小。RPO越小,往往要求数据备份、复制频率更高,对生产环境、网络的压力也会越大,成本通常也越高。RTO:指故障发生后,期望...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

自动故障转移和读写分离

JDBC(Java Database Connectivity)是Java语言中用来规范客户端程序如何访问数据库的应用程序接口,在PostgreSQL中JDBC支持故障转移和负载平衡(Load Balance)。libpq实现自动故障转移和读写分离 通过libpq函数连接多个数据库,当出现...

阿里云OpenAPI

API(应用程序编程接口)是一种允许应用程序之间相互通信的标准接口。API 允许开发者在多个不同的应用程序之间共享数据、功能和服务,使开发者更容易地实现连接两个应用程序之间的功能,也使开发人员可以更轻松地开发和扩展应用程序。Open...

常见问题-FAQ

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台...

FAQs

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM能在 3分钟左右 准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、...

实例的节点故障处理机制

当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于测试、培训、非核心业务等场景,生产环境建议使用副本集实例或分片集群实例以保障服务的高可用性。副本集 图 1.副本集架构 ...

使用KMS密钥进行信封加密

当您的自建应用程序需要加密大量数据或者您不希望上传数据到阿里云密钥管理服务KMS(Key Management Service)时,可以使用信封加密。本文介绍如何使用KMS实现对数据的信封加密。适用的密钥类型 软件密钥、硬件密钥。重要 软件密钥、硬件...

连接保持

通常的解决办法是重启应用程序或保证应用程序具备重连机制,但由于开发周期等原因,在开发设计应用程序的前期可能并未考虑到该问题,导致出现大量的非预期行为甚至应用程序的服务不可用。因此 PolarDB 新增支持连接保持功能,避免由于一些...

套餐定价

该功能扩展了应用程序的吞吐能力,并且可以消除服务器的单点故障,提升应用程序的可用性。负载均衡实例支持的套餐如下表所示。重要 不同地域支持的套餐不同,具体价格以控制台购买页面显示为准。套餐内资源 60元/月套餐 最大连接数 10000 ...

通信能力技术服务协议

API接口:API(Application Programming Interface,应用程序编程接口)提供给开发人员的实现某一特定功能的接口,以下简称“接口”。App key&App secret:指开发者在申请开发新应用时获得的由阿里授予的应用程序接入账户和密钥。App key是...

功能特性

OIDC 应用 应用授权 将应用的访问权限授权给用户、组织或组 OIDC 应用 自研应用 自研应用 简化了单点登录配置的 OIDC 应用,适用于大部分企业自研应用接入 自研应用 应用 API(DeveloperAPI)基础管理能力 启用/禁用 DeveloperAPI 能力 ...

交通云控平台开发者协议

API接口 阿里云向开发者提供的应用程序编程接口,开发者可按照开放平台的规则将其集成到开发者应用中。API接口在本协议中也简称为“接口”。开发者 按照开放平台流程,经有效注册、申请后,基于开放平台提供的API接口进行应用开发或完善的...

最佳实践概览

该功能扩展了应用程序的吞吐能力,并且可以消除服务器的单点故障,提升应用程序的可用性。具体最佳实践如下表所示。场景 说明 部署高可用架构应用集群 基于轻量应用负载均衡,您可以部署高可用架构应用集群。相较于使用单台轻量应用服务器...

新功能发布记录

该功能扩展了应用程序的吞吐能力,并且可以消除服务器的单点故障,提升应用程序的可用性。2021-07-28 轻量应用负载均衡概述 2021年04月 功能名称 功能描述 发布时间 相关文档 地域 中国站新增2个地域:华南3(广州)、西南1(成都)2021-04...

通过错/慢调用链排查应用产生异常的原因

在生产环境中,引发应用异常(如耗时突增、错误率突增)的原因有很多,常见的包括流量不均、单机故障程序异常和依赖组件故障等。在新应用上线或大促备战前通常建议做一次系统性的性能调优,分析当前系统存在哪些性能瓶颈,梳理出常出错的...

Spring Boot应用如何快速接入Prometheus监控

Spring Boot的核心价值就是自动配置,只要存在相应Jar包,Spring Boot可以自动配置,如果默认配置不能满足需求,您还可以替换掉自动配置类,使用自定义配置快速构建企业级应用程序。构建Spring Boot应用以及该应用上线之后,您需要对该应用...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

功能发布记录(2018~2022年)

优化 选择注册中心运维方式 支持为多语言应用配置故障注入 通过给应用注入特定故障,来检测该应用的消费者处理异常情况的能力。新增 已下线 支持为多语言应用配置服务超时 服务超时机制可以在请求的处理时间超过设置的时间时直接返回错误...

轻量应用负载均衡概述

当其中一部分轻量应用服务器发生故障后,负载均衡会自动屏蔽故障的轻量应用服务器,将请求分发给正常运行的轻量应用服务器,保证应用程序仍能正常工作。弹性管理应用程序的服务能力。您可以根据业务发展的需要,自行添加或移除轻量应用负载...

查看应用性能详情

支持基于应用>上下游应用>接口等逐层下钻分析,建立从底层至上层间的数据关联信息,从而深度分析分布式场景下影响应用性能的问题根因。若发现某个接口调用异常,可跳转链路查询界面,按照相关参数查询链路。功能入口 在左侧导航栏上,单击 ...

2022年

v2.8.5.3 告警管理 集成Insights根因诊断功能 支持在接收告警的同时查看告警发生应用上下游分析,帮助您更快地找到根源问题。不涉及 v2.8.5.3 Grafana服务 新增企业云监控集成 在原有云产品监控数据基础上,丰富了维度信息,使监控大盘的...

阈值检测

应用场景 当您发现经常收到某条告警,但是系统又没有发生任何故障时,可能是因为当前的阈值设置得不够合理,或者是该阈值不适合某些应用接口。这种场景下,您可以使用 建议阈值 功能,对告警规则的阈值进行调整,或对部分应用接口的...

阈值检测

应用场景 当您发现经常收到某条告警,但是系统又没有发生任何故障时,可能是因为当前的阈值设置得不够合理,或者是该阈值不适合某些应用接口。这种场景下,您可以使用 建议阈值 功能,对告警规则的阈值进行调整,或对部分应用接口的...

Windows镜像辅助打包

鉴于Windows镜像打包有诸多不便,平台提供了镜像打包工具,用于帮助简单应用自动完成Docker镜像的生成。...对于原生应用,您需要将应用程序及依赖文件打包在一个zip文件中,并保证后面指定的“启动文件”,位于文件夹的一级目录下。

管理应用接口

接口管理对应用接口定义进行统一管理,支持根据代码中的@RestController 等注解,进行接口扫描并上报回平台。本文介绍如何配置接口管理规则、查看接口和数据模型详情。查看接口和数据模型详情 登录BizWorks,在 选择平台 下拉列表中选中 微...

应用场景

传统型负载均衡CLB(Classic Load Balancer)的应用场景为高访问量的业务,提高应用程序的可用性和可靠性。应用于高访问量的业务 如果您的应用访问量很高,您可以通过配置监听规则将流量分发到不同的云服务器ECS(Elastic Compute Service...

什么是可观测链路 OpenTelemetry 版

应用性能实时汇总:通过追踪整个应用程序的用户请求,来实时汇总组成应用程序的单个服务和资源。分布式拓扑动态发现:用户的所有分布式微服务应用和相关PaaS产品可以通过 可观测链路 OpenTelemetry 版 收集到分布式调用信息。多语言开发...

将HSF应用托管到SAE

应用程序须以WAR包方式部署。Pandora Boot:依赖Pandora,提供了比较完整的HSF功能,包括服务注册与发现、异步调用。应用程序编译为可运行的JAR包并部署即可。操作步骤 开发应用。方法一:下载Demo工程。microservice-doc-demo项目内包含了...

Web应用集成SDK

异步接口响应组件 异步接口响应组件使Web应用程序能在API接口上响应antibot攻防体系下发给客户端的挑战(目前包括JS校验和Captcha挑战)。采用此组件后,如果WAF给某一API接口下发挑战response,异步接口响应组件探测到该挑战response后,...

Cloud Toolkit概述

您在本地完成应用程序的开发、调试和测试后,可以使用在IDE(如IntelliJ IDEA或Eclipse)中安装的Cloud Toolkit插件,通过图形配置的方式连接到云端部署环境并将应用程序快速部署到云端。功能概览 功能 描述 文档 安装Cloud Toolkit 在...

应用故障自动诊断

应用的某个接口或者服务故障导致的整体故障应用的下游应用故障导致本应用故障。根因分析:这一部分包含了诊断模型推测出来的深层原因,深层原因比较多,根据实际的情况有所不同。数据支持:这一部分包含了得到推测结论的数据支持,不同...

产品优势

具备 不具备 无影云应用 的优势 作为一款完全托管的应用程序虚拟化流式传输服务产品,无影云应用 具备以下优势:高效管理 在云上集中管理应用,有效简化应用全生命周期管理,实现新应用、新版本快速上线使用。快速分发 无需重写即可将传统...

读写分离简介

读写分离模块会自动对只读实例进行健康检查,当发现某个实例发生宕机或延迟超过阈值时,系统将不再向该实例分配读请求,而是在剩余的健康实例间进行分配,以此确保单个只读实例发生故障时,不会影响应用的正常访问。当实例被修复后,RDS会...

绑定 OIDC 身份提供方

重定向URI为上面第一步添加OIDC身份提供方时,步骤3中获取的“IDaaS 授权回调 Redirect URI”3、完成新应用程序基本配置(1)创建新应用程序后,默认进入 概述 页面。您可以在 应用注册>所有应用程序 下查看您所创建的应用程序。注意:此处...

JVM注入动态脚本

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

选择注册中心运维方式

您也可以在应用程序的配置中将Eureka或ZooKeeper更改为Nacos,以便使用EDAS共享注册中心。使用其它类型的注册中心 如果使用其它类型的注册中心,例如Consul,只能继续使用您自建的注册中心。说明 保证您的注册中心地址与托管到EDAS中的应用...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
Web应用防火墙 云数据库 RDS 轻量应用服务器 域名 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用