监控、诊断和故障排除

故障排除:提供常见的问题场景和故障排除方法。服务监控 监视总体运行状况 可用性和有效请求率 可用性和有效请求率是有关系统稳定性和用户是否正确使用系统的最重要指标,指标小于100%说明某些请求失败。可能因为一些系统优化因素出现暂时...

历史功能发布记录(2023年)

Sidecar Acceleration using eBPF 支持操作系统内核层的容器监控可观测能力 支持操作系统内核层的容器监控可观测能力,为您提供更可靠、透明的容器引擎层,助力您更顺利地进行容器化迁移,解决了因容器引擎层的不透明性而导致的故障排查...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

设计方案

容错 容错是指在分布系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

可观测性的设计原则

每个组件都可以将标识符添加到它们的日志中,以便在出现问题时进行故障排除分布式跟踪可以使用开源工具Jaeger、Zipkin、skywalking或CAT等,阿里云上有ARMS服务来实现。日志记录 系统需要记录关键事件和故障,以帮助诊断问题和解决故障。...

快速入门

ADP-Local运维控制台 ADP-Local运维控制台(以下简称ADP-Local)提供了丰富的运维管理能力,在控制台内可以查看各组件的运行状态、监控告警信息,进行故障排除,及操作各类运维变更。在底座配置内勾选 本地控制台(adp-local)在产品的版本...

DescribeExcludeSystemPath-查询防勒索系统排除目录

查询防勒索系统排除目录。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中...

操作系统迁移(Windows)

常见错误及修复方案的更多信息,请参见 SMC FAQ 和 故障排除。如果需要回滚源系统云盘数据,您可以在快照列表使用自动备份的快照进行恢复数据。操作步骤如下:登录 ECS管理控制台。在左侧导航栏,选择 存储与快照>快照。在 云盘快照 页签下...

主从实例读写分离部署(共享存储)

数据状态保存在盘古分布式存储系统中,无需从计算节点迁移,计算节点轻量无状态,系统可以快速从故障中恢复。该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问...

购买UEM

使用终端访问控制系统的功能之前,您需要先购买UEM。本文介绍如何购买UEM。操作步骤 登录 终端访问控制系统控制台。单击 立即开通,进入产品购买页面。在购买页面按需配置购买参数。可参考以下表格配置参数参数 说明 商品类型 选择您需要...

GxP欧盟附录11标准合规包

13.1 应报告和评估所有事件,而不仅仅是系统故障和数据错误。应确定重大事件的根本原因,并应成为纠正和预防行动的基础。使用云安全中心企业版 使用云安全中心企业版或者更高级别的版本,视为“合规”。1.1 风险管理应贯穿计算机化系统的...

通过SMC客户端导入迁移源

常见问题及修复方案的更多信息,请参见 SMC FAQ 和 故障排除。使用sudo权限:sudo./go2aliyun_client-abort sudo./go2aliyun_client 使用root权限:./go2aliyun_client-abort./go2aliyun_client 后续步骤 导入迁移源后,您需要创建并启动...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

商业化AHAS CHAOS故障演练是阿里巴巴内部广泛使用的演练平台云上版本,具有灵活的流程编排、丰富的故障场景等特点,可以帮助企业提升分布系统的容错能力,保障在企业上云或往云原生系统迁移过程中业务的连续性。AHAS CHAOS故障演练在...

ZooKeeper的使用场景和MSE ZooKeeper的优势

分布式锁:在分布式环境中,程序都分布在独立的节点中,分布式锁是控制分布系统之间同步访问共享资源的一种方式,分布式锁主要有如下2种类型:排他锁(Exclusive Locks):又称为独占锁,利用ZooKeeper在一个具体路径下只能创建一个节点...

围绕混沌工程的平台实践

以下是混沌工程官方定义:混沌工程是在分布系统上进行实验的学科,目的是建立对系统抵御生产环境中失控条件的能力以及信心。因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实...

快速使用专属集群MyBase

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...

基本概念

分布式事务 distributed transaction,事务的发起者、资源及资源管理器和事务协调者分别位于不同的分布系统的不同节点之上。分支事务 action,一个分布式事务可能包含多个数据库本地事务,在分布式事务框架下,分支事务可能是一个分库上...

SAP HANA Scale-Out 部署指南

SAP HANA Scale-Out 部署指南 概述 架构总览 资源规划 前期准备 阿里云账号 VPC ECS实例 ECS Metrics Collector的安装 文件存储NAS ECS宕机迁移 HANA安装 维护主机名 创建文件系统 准备OS以及安装包 安装SAP HANA 验证集群安装 版本管理 ...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一环。这些消息服务之前并没有在系统中实际经历过真实流量考验,其中某些隐患或缺陷很难被发现...

监控分析平台对比

Tracing类工具 在微服务、分布式的系统中,请求调用链路复杂,没有一套合适的Tracing系统,很难进行高效的问题根因定位,从Zipkin、Jaeger到逐渐形成行业标准的OpenTelemetry、SkyWalking都是不错的Tracing系统,而这些Tracing系统并未提供...

基本概念

分布式链路跟踪 EDAS鹰眼监控系统能够分析分布系统的每一次系统调用、消息发送和数据库访问,从而精准发现系统的瓶颈和隐患。分布式任务管理 SchedulerX 是阿里巴巴中间件团队开发的一款分布式任务调度产品。用户在应用中依赖SchedulerX-...

2022年

企业级分布式批处理方案 1.4.2,2022-03-07 变更类型 功能描述 相关文档 新增 分布式任务调度系统SchedulerX 2.0的日志服务,您不需要修改一行代码,只需要增加一个Log4j或Logback的配置,即可在控制台看到每次任务调度(包括分布式任务)...

实现任务调度

在EDAS控制台中,已经无缝集成了阿里巴巴的分布式任务调度系统SchedulerX作为核心组件,以实现高效的任务调度管理功能。本文将介绍如何在您的Spring Cloud应用中使用SchedulerX实现任务调度,并部署到EDAS中,实现一个 简单Job单机版 的...

PAI-TF任务参数介绍

当该参数设置为 true 时,worker节点出现故障时会被重新拉起,训练job不会因此而失败。true false false 否 jobName 您需要指定实验名称,用于在后期更好的分析历史所有该实验的性能指标。参数建议是一个有意义的字符串,避免为 test 之类...

Tair选型指南

选择容灾方案 图 3.Tair容灾架构演进 灾备方案 灾备级别 说明 单可用区高可用方案★主从节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统自动执行故障切换,避免单点故障引起的服务中断。...

常见问题

如果无法调整批量大小,可以在控制台修改参数:merge_tree.parts_to_throw_insert,将参数的取值设置的大一些。为什么DataX导入速度慢?常见原因及解决方案如下。常见原因1:参数设置不合理。ClickHouse适合使用大batch、少数几个并发进行...

挂载访问FAQ

目前仅支持Linux操作系统挂载NFS文件系统,Windows操作系统挂载SMB文件系统、Windows操作系统挂载NFS文件系统及Linux操作系统挂载SMB文件系统场景,请您登录ECS实例执行命令挂载。更多信息,请参见 Windows系统挂载SMB文件系统、Windows...

服务熔断

您可以对应用开启服务熔断功能,使有故障的服务端及时返回错误,并释放系统资源,提高用户体验和系统性能。功能简介 您可以通过下述操作让故障处于可控范围:通过监控或者服务拓扑查看到某个服务延时较大、错误率较多后,进行服务治理。...

EasyCkpt:AI大模型高性能状态保存恢复

在训练过程中,可能会遇到硬件故障系统问题、连接错误、以及其他未知的问题。这种频繁中断导致的训练进度的损失对于耗时又耗资源的大模型训练来说是难以承受的。尽管可以通过做Checkpoint来保存和恢复进度,但Checkpoint本身的耗时与模型...

使用访问日志

全球加速提供访问日志功能,可以记录所有访问终端节点的流量信息,帮助您检查访问控制规则、排查网络故障等。访问日志介绍 您可以选择为全球加速实例的一个或者多个终端节点组创建访问日志,采集到的访问日志将会投递到终端节点组所在地域...

使用访问日志

全球加速提供访问日志功能,可以记录所有访问终端节点的流量信息,帮助您检查访问控制规则、排查网络故障等。访问日志介绍 您可以选择为全球加速实例的一个或者多个终端节点组创建访问日志,采集到的访问日志将会投递到终端节点组所在地域...

部分索引

同样,具有特殊分布的数据集可能导致系统在它并不需要索引的时候选择使用索引。在此种情况下可以被建立,这样它将不会被那些无关的查询所用。通常,本数据库会对索引使用做出合理的选择(例如,它会在检索公值时避开索引,这样前面的例子...

概述

若需要开启事务保持功能,您需要在控制台的 参数配置 页面将 loose_innodb_trx_resume 参数值设置为 ON。设置参数值详情请参见 设置集群参数和节点参数。技术原理 PolarDB 热备切换功能的核心技术如下:全新的高可用系统VDS 热备功能开启后...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也会随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的...

快速开始

如果控制台和系统参数 max_parallel_degree 均有设置,则以控制参数配置为准,故建议使用控制台开启并行查询。关闭并行查询 在控制台基本信息的集群地址区域,单击 编辑配置,打开 编辑地址配置 页面,可关闭并行查询,具体操作请参见 ...

SanityCheck:算力健康检测

功能介绍 在执行DLC任务时,可能会遇到以下问题:在任务花费一定时间加载模型Checkpoint或其他初始化操作后,由于申请的资源存在故障,无法顺利开始训练,需要调查定位故障问题并重新提交任务。该过程中会导致GPU资源的浪费。在任务运行...

配置任务常见错误码及排查方法

本文介绍了用户在使用控制台或OpenAPI配置任务时系统返回的错误码、出现报错的场景及解决方法。用户配置使用类错误码 错误码 报错场景 原因及解决方法 DTS.Msg.LXCreateOrderError 购买DTS实例时创建订单不成功。原因:未将UID添加至白名单...

错误码

SDK 集成相关 错误码 错误消息 错误说明 解决方案 DTX-000 dtx component scanner init error.SDK 启动失败,分布式事务不可用。DTX-001 Bean[%s]can not have@DtxTransaction and@TccBusinessAction both.同一个 bean 不能既有@...

使用组复制

组复制MySQL Group Replication(简称 MGR)是MySQL官方在已有的Binlog复制框架之上,基于Paxos协议实现的一种分布式复制形态,能够保障RPO=0。RDS MySQL集群系列实例支持组复制。本文介绍如何使复制方式为组复制。背景信息 使用了组复制的...

任务常见问题

单击运行一次后,系统提示输入实例参数,如何处理?在 任务管理 页面的操作列,单击运行一次,可以执行一次该调度任务。弹框中的 实例参数 非必填,主要用于测试。单击运行一次并输入实例参数,那么代码中获取的是实例参数还是任务参数?...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云消息队列 RocketMQ 版 文件存储 CPFS 负载均衡 云安全中心 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用