计算机集群出现异常怎么办-计算机集群出现异常怎么办文档介绍内容-阿里云

调优集群性能

当您发现监控指标存在异常时，可以参考本文排查出现异常的原因。查看集群监控指标的方法，请参见查看监控信息。集群资源指标 CPU使用率指标云原生数据仓库 AnalyticDB MySQL 版的CPU使用率会展示各节点的CPU最大使用率和CPU平均使用率。...

故障排查

分类相关文档集群资源和集群组件异常问题排查集群检查项及修复方案（包括升级集群、迁移集群、安装组件、升级组件过程中出现的异常以及解决方案）Pod异常问题排查 Pod诊断 Service异常问题排查 Service诊断 Ingress异常问题排查 Ingress...

容器资产管理

如果您需要查看容器集群异常告警，请先开启K8s威胁检测配置。具体操作，请参见容器K8s威胁检测。同步最新资产查看容器资产信息前，您需要先同步最新的容器资产信息，确保将新接入的容器资产同步到云安全中心资产列表。登录云安全中心控制...

集群检查项及修复方案

重要误删除APIService会导致集群异常。如果您不清楚异常APIService用途，请提交工单联系我们。kubectl-n kube-system delete apiservices${your-abnormal-apiservice-name} 节点存在使用HostPath的Pod 在Node替盘升级时，如果Pod使用了...

计费说明

ACK集群Pro版收取集群管理费用，涉及云产品资源费用。本文主要介绍 ACK集群Pro版的计费项、...产品计费常见问题关于购买产品购买、集群使用时可能遇到的计费相关问题，例如集群异常或删除失败时是否会产生计费，请参见资源计费常见问题。

通过CCR跨集群复制解决跨集群容灾场景

Elasticsearch（简称ES）集群出现灾难性事件，例如，硬件故障、软件错误、数据中心故障、自然灾害或其他导致服务中断的情况，可使用跨集群复制CCR（Cross Cluster Replication）实现跨地域或跨资源的容灾能力，本文分别介绍新老网络架构下...

RecoverCluster-重置并修复集群

调用RecoverCluster重置并修复异常集群。接口说明仅当集群状态为 exception（异常）时，才能调用该接口重置并修复集群。您可以通过调用 ListClusters 获取集群 ID 及集群状态。建议您操作前导出所有作业数据。重置并修复集群会有以下影响...

基于多集群网关实现同城容灾

创建多集群网关后，通过设置流量规则可以实现按权重路由流量、根据Header将流量路由到指定集群的能力，当其中一个集群异常时，流量将自动路由到另一个集群中。前提条件已开通MSE微服务引擎。已开启舰队管理功能。具体操作，请参见开启...

历史功能发布记录（2021年）

全部创建节点池 ACK新配额管理 ACK加强配额展示和申请功能，细化增加了ACK托管集群、ACK专有集群、ACK Serverless集群、ACK Edge集群、注册集群等各项配额在控制台的展示以及在配额中心的申请入口。全部使用限制 ACK Serverless集群支持...

API概览

RecoverCluster 重置并修复集群调用RecoverCluster重置并修复异常集群。DeleteCluster 释放一个集群调用DeleteCluster释放指定集群。混合云集群 API 标题 API概述 CreateHybridCluster 创建一个E-HPC混合云集群调用CreateHybridCluster...

Kubernetes集群网络异常的排查方法

问题描述在Kubernetes集群内，某个节点上的Pod出现网络访问异常，具体现象如下所示：Pod访问外网异常。Pod访问其他Service异常。Pod访问其他节点上的Pod异常。问题原因集群内ECS的安全组配置错误或者冲突。集群内VPC的路由表条目配置错误...

授权管理FAQ

问题原因为了防止误操作以及出现集群创建者无法操作自己创建的集群的情况，所有针对集群创建者的RBAC授权变更操作都将无法生效。解决措施如果确实需要删除某集群创建者所拥有的RBAC权限，您可以通过以下方法手动在集群内进行变更操作。...

授权管理FAQ

问题原因为了防止误操作以及出现集群创建者无法操作自己创建的集群的情况，所有针对集群创建者的RBAC授权变更操作都将无法生效。解决措施如果确实需要删除某集群创建者所拥有的RBAC权限，您可以通过以下方法手动在集群内进行变更操作。...

组件异常问题排查

在组件安装、升级、更改配置等过程中出现异常问题时，控制台通常会提示相应的操作异常码。您可以根据操作异常码查找对应的问题，查看问题原因和解决方案。本文介绍操作异常码及其问题原因和解决方案。AddonOperationFailed.ResourceExists ...

控制台访问集群异常问题排查

本文介绍控制台访问集群异常问题的问题现象、问题原因和解决方案。例如，当前集群APIServer请求异常，访问容器组日志时报错API Server请求异常，当前账号未被授予该操作所需的集群RBAC权限，当前账号未被授予该操作所需的RAM权限。当前集群...

常见问题旧版索引

故障排查 ACK集群异常容器服务ACK应用故障排查如何升级集群？排查故障的经典步骤与常见原因如何通过查看日志排查故障？产品FAQ 授权管理FAQ 集群管理FAQ 节点与节点池FAQ 容器网络FAQ Service FAQ Ingress FAQ DNS FAQ 应用FAQ 存储FAQ-...

Pod异常问题排查

若集群配置了集群容器副本异常报警，则OOM事件出现时可收到相关报警。关于配置报警，请参见容器服务报警管理。解决方案查看发生OOM异常的Pod所在的节点。命令行方式查看：执行以下命令，查看容器信息。kubectl get pod[$Pod]-o wide-n[$...

运维K8s资产（公测中）

说明若该集群下拉取不到数据或托管出现异常，原因可能如下，请您排查后重试：您的凭据选择有误，请核查您选择的Kubeconfig是否属于该集群。您的网络环境可能阻止了PAM的访问，请您核查您的K8s资产是否设置了访问控制。请您选择托管层级时...

查看监控信息

当查询成功率发生异常下降时，考虑是否出现了集群、节点的故障。查询平均耗时所选中集群每分钟内所有查询的平均耗时。ms 99th 查询耗时所选中集群给定时间内升序排列排在第99%位置的请求的响应时间;用于反映集群慢查询的速度。ms 导入...

监控告警

当查询成功率发生异常下降时，考虑是否出现了集群、节点的故障。查询平均耗时集群每分钟所有查询生命周期结束的平均时间。ms 99th 查询耗时展示给定时间内，统计升序排列排在第99%位置的请求的响应时间，可以反映集群慢查询的速度。ms ...

Pod异常问题排查

若集群配置了集群容器副本异常报警，则OOM事件出现时可收到相关报警。关于配置报警，请参见容器服务报警管理。解决方案查看发生OOM异常的Pod所在的节点。命令行方式查看：执行以下命令，查看容器信息。kubectl get pod[$Pod]-o wide-n[$...

节点异常问题排查

本文介绍关于节点异常问题的诊断流程、排查思路、常见问题及解决方案。本文目录类别内容诊断流程诊断流程常见...解决方案通过节点的监控查看CPU增长曲线，确认异常出现时间点，检查节点上的进程是否存在CPU占用过高的现象。具体操作，...

节点异常问题排查

本文介绍关于节点异常问题的诊断流程、排查思路、常见问题及解决方案。本文目录类别内容诊断流程诊断流程常见排查...解决方案通过节点的监控查看CPU增长曲线，确认异常出现时间点，检查节点上的进程是否存在CPU占用过高的现象。具体操作...

降配集群

降配过程中不会出现数据丢失的现象，但如果集群负载高或状态异常，访问可能出现偶发的超时抖动，建议您业务上做好重试机制并加副本数。对于非标准规格的集群，例如集群仅有两个数据节点，降配可能导致额外的风险（例如数据丢失），请谨慎...

升配集群

升配过程中不会出现数据丢失的现象，但如果集群负载高或状态异常，访问可能出现偶发的超时抖动，建议您业务上做好重试机制，并为索引分片配置副本。如果实例为非正常状态（黄色或红色），在升配集群时，需要勾选强制变更，忽略集群健康...

通过备份中心实现低版本Kubernetes集群应用迁移

重要在Flexvolume集群中，migrate-controller备份服务组件安装完成后，migrate-controller的Pod将异常退出，打开集群应用备份页面将出现404报错。此时，您需要编辑组件的YAML，增加USE_FLEXVOLUME环境变量。kubectl-n kube-system patch ...

使用KubeConfig回收站

集群状态异常：集群状态异常时可能无法连接集群，继而导致KubeConfig恢复失败。KubeConfig冲突：在一个ACK集群中，一个RAM用户或角色只能保有一个正在生效的KubeConfig。如果您在批量恢复KubeConfig记录时KubeConfig存在冲突，ACK默认恢复...

资源计费常见问题

集群处于异常状态不活跃（inactive）或不可用（unavailable）时，ACK集群如何计费？集群处于“不活跃（inactive）”或“不可用（unavailable）”状态时，仍会继续收取相关集群管理费用和云产品资源费用。计费详细说明，请参见产品计费。...

删除集群

集群处于异常状态不活跃（inactive）或不可用（unavailable）时，ACK集群如何计费？集群处于“不活跃（inactive）”或“不可用（unavailable）”状态时，仍会继续收取相关集群管理费用和云产品资源费用。计费详细说明，请参见产品计费。...

使用须知及高危风险操作说明

阿里云容器计算服务（简称ACS）提供容器计算服务相关的技术架构以及核心组件的托管服务，对于非托管组件以及运行在ACS集群中的应用，不当操作可能会导致业务故障。为了更好地预估和避免相关的操作风险，在使用容器计算服务ACS前，请认真...

通过云原生网关管理多个ACK集群

当集群A异常时在集群A中删除httpbin服务。此时，服务地址只有一条记录。多次访问网关，创建访问日志。具体代码如下所示。while:;do curl http://<网关SLB地址>/test;done 在网关日志中进行查询分析。登录 MSE网关管理控制台。在左侧导航栏...

管理事件

操作事件操作事件指的是在您自行操作触发的过程中出现失败等异常状态变化的事件，用于展示当前集群操作的风险和异常情况。对于这类事件，您需前往集群实例的操作历史页面查看操作失败原因，并进行相应的处理，以避免对下一次操作产生影响...

DescribeServiceMeshClusters-获取服务网格的可用集群

2020-05-12T15:38:16+08:00 ErrorMessage string 集群的异常信息。fail State string 集群状态，取值：running：运行中。starting：启动中。stopping：终止中。stopped：已停止。failed：失败。running ServiceMeshId string 服务网格 ID。...

集群巡检项及解决方案

CoreDNS版本过低异常影响：集群内CoreDNS组件版本过低，会导致业务出现DNS解析问题。最新版的CoreDNS提供了更好的稳定性配置和新的功能。解决方案：为避免业务出现DNS解析问题，您需要尽快升级CoreDNS。具体操作，请参见 CoreDNS手动升级...

集群巡检项及解决方案

CoreDNS版本过低异常影响：集群内CoreDNS组件版本过低，会导致业务出现DNS解析问题。最新版的CoreDNS提供了更好的稳定性配置和新的功能。解决方案：为避免业务出现DNS解析问题，您需要尽快升级CoreDNS。Ingress版本过低异常影响：集群内...

清除KubeConfig

在该页面可查看该用户各个集群KubeConfig的下发状态列表，列表包含集群信息和KubeConfig证书信息两部分：集群信息：集群名称、集群ID。KubeConfig证书信息：KubeConfig过期时间和状态、七天日志检查（即证书访问记录）。单个或批量清除该...

指标含义与异常处理建议

对于磁盘使用率过高导致集群异常的情况，建议参见集群磁盘使用率过高和read_only问题的排查与处理方法排查解决。对于1核2 GB规格的实例，遇到实例状态不正常的问题时，建议先按照1:4（CPU:Mem）的规格升配集群，增大实例规格。升配后，...

组件概述

ack-node-problem-detector 可选组件 ACK基于社区开源项目进行改造和增强的集群节点异常事件监控组件，以及对接第三方监控平台功能的组件。ack-node-repairer 可选组件 ACK的自愈系统（ACK Node Repairer）会监听每个节点上的新故障事件，...

集群巡检项及解决方案

CoreDNS版本过低异常影响：集群内CoreDNS组件版本过低，会导致业务出现DNS解析问题。最新版的CoreDNS提供了更好的稳定性配置和新的功能。解决方案：为避免业务出现DNS解析问题，您需要尽快升级CoreDNS。具体操作，请参见 CoreDNS手动升级...

查看集群概况

智能运维系统通过红黄绿3种颜色来展示集群的健康状况：红色：表示集群已经出现了很严重的问题或者很严重的隐患，已经影响了您的使用，需要立即处理，否则会存在数据丢失，集群故障等问题。黄色：表示集群存在较严重的问题或隐患，可能会...

计算机集群出现异常怎么办

新品推荐