资源使用优化

优化资源利用率 资源利用率提升本质就是用最少的资源最大化满足算需求,同时需综合考虑业务布局、容灾和稳定性、机器故障率、预留缓冲空间等因素,这些因素交织在一起共同资源使用效率。概括起来需要被关注到的内容包括:明确资源利用率...

附录:SOFAStack 产品目录

任务调度 任务调度(Task Scheduler,简称 TS)提供分布式任务调度框架,实现任务的分布式处理,并能规范、自动化、可视和集中地对金融企业不同业务系统的任务进行统一的调度和全方位的监控运维管理。产品架构 产品优势 支持集群任务...

归档存储服务等级协议

服务赔偿条款 2.13.1 赔偿范围:因阿里云设备故障、设计缺陷或操作不当导致用户所购买的归档存储服务无法正常使用,阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起...

Tair选型指南

3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...

App端性能体验功能说明

影响用户数 在一定时间范围内对该类错误的所有错误日志按照设备维度进行排重计数 影响用户占比 影响用户占比=影响用户数/活跃用户数 告警设置 点击“告警”,针对单条错误摘要进行告警监控。行为日志 记录用户在使用 APP 过程中,点击元素...

测试指标

npty 个 BSD伪终端(pty)的最大数量 nstrtel 个 指定内核可支持传入telnet会话的telnet设备文件的数量 nswapdev 个 可用于交换的设备最大数量 nswapfs 个 可用于交换的文件系统的最大数量 semmni 个 System V IPC系统级信号量标识符的...

词汇表

通过靠近客户侧的去中心小型云计算平台能力,实现了广覆盖、低时延、大带宽的技术特点,为用户提供安全、稳定、可靠的全球内容分发加速服务和边缘计算服务,帮助客户解决在音视频、游戏、终端虚拟等应用场景中遇到的算、网络、部署和...

DataV数据可视服务协议

本服务协议是阿里云计算有限公司(简称“阿里云”)与您就DataV数据可视服务(简称DataV服务)的相关事项所订立的有效合约。您通过盖章、网络页面点击确认或以其它方式选择接受本服务协议,或实际使用阿里云提供的DataV服务,即表示您与...

DataV数据可视服务协议

本服务协议是阿里云计算有限公司(简称“阿里云”)与您就DataV数据可视服务(简称DataV服务)的相关事项所订立的有效合约。您通过盖章、网络页面点击确认或以其它方式选择接受本服务协议,或实际使用阿里云提供的DataV服务,即表示您与...

存储资源

可以采用以下容错策略:配额管理:根据系统负载和需求,合理配置应用使用的最大连接数,防止因单应用服务数据库访问异常造成数据库连接池满,影响其他业务。超时回收:在连接池中设置连接超时时间,当连接在一定时间内没有被使用时,自动...

块存储FAQ

由于释放云盘等操作可能会导致其他云盘的设备名变动,如果在/etc/fstab 中直接使用设备名,当设备名变动时可能影响您的存储数据。如果添加了错误的信息,使用 mount-a 命令将无法挂载。解决方法如下:运行 fdisk-l 查看具体的数据盘信息。...

设备显示离线

可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的运营商网络正常。如果不正常,请处理运营商网络问题。如果正常,请跳转至 步骤2。请检查设备本身是否上电。电源状态...

故障管理

故障等级定义的制定和录入 标准化故障等级定义制定的思路:依据业务属性先将业务划分为大的子类(业务整体技术架构层面)将每个子类业务里的核心模块和次核心、非核心模块区分开来(功能层面)根据各功能模块的业务量级去适配不同的影响面...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

共享内存通信(SMC)常见问题

解决方案1:执行 smcr d 命令,检查当前系统中是否有可用的 SMC-R(RDMA)设备,如果所需的RDMA设备为阿里云eRDMA设备,请确保该ERI设备已经在ECS控制台中添加并正确安装和配置ERI驱动。原因2:在多以太网卡环境中,连接所用的以太网卡不...

设计方案

演练常态 故障演练提供了一种端到端的测试理念与工具框架,本质是通过主动引入故障来充分验证软件质量的脆弱性。从提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

设计原则

这样可以确保一台设备故障时,数据仍然可用;容灾计划:制定容灾计划,包括灾难恢复策略、应急响应流程和恢复时间目标(RTO)等。容灾计划应该经常进行测试和演练,以确保其可行性和有效性;数据备份与恢复:定期进行数据备份,并确保备份...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

互联网行业

一旦设备发生故障需要维修,将严重影响业务和工作效率。弹性不足:传统的电脑办公系统无法满足战略和项目的快速调整,资源不足或过剩都会影响业务和成本。方案介绍 安全办公研发:无影云电脑、安全策略、无影云盘或NAS(加上AD连接器和云...

本地盘最佳实践

建议选择 内网传输 的网络模式,并启用块复制,最大化提高迁移备份效率。建议开启 自动增量同步,定期使用SMC迁移生成备份镜像。SMC迁移时不会干涉原系统,不会修改原系统配置或文件,除了会占用一定的CPU/内存、带宽资源,其他不影响原...

混沌工程缓存实战系列-Redis

影响因素里可以看到影响Redis使用稳定性有很多原因,这里挑选一个场景:评测网络延迟对Redis使用的影响,来观察RT变化之后业务能否继续保持正常服务。基于网络延迟这个场景,可以提出这样的假设:缓存的RT变化不应该影响到购物车查询的...

实时分析链路数据

结合自定义标签埋点,才能最大化释放调用链分析价值。调用链分析不同于标准的应用监控预聚合指标,很多自定义场景的标签需要用户手动埋点打标,这样才能最有效地区分不同业务场景,实现精准分析。相关文档 为避免在出现问题后被动诊断错误...

EasyCkpt:AI大模型高性能状态保存恢复

功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的功能特点:特点1:任务的故障是部分的。通常,故障的根因是一到两台机器的故障,这只会影响部分Worker。对于大规模分布式训练任务而言,不会所有...

变更管理

运维事件中心是阿里云提供的云上变更管理服务,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字管理、更快的故障响应、更短的故障时长、更...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

GxP欧盟附录11标准合规包

业务背景 GxP欧盟附录11(GxP EU Annex 11)是欧盟对于计算机系统使用的规范性要求,主要针对在制药、生物技术和医疗器械领域中使用计算机系统的企业和组织。他要求涵盖了计算机系统的开发、验证、操作、维护和监测等方面,以确保...

应用场景

场景二:数据实时分析/数据库数据入数仓 数据分析在提高企业洞察和用户体验方面发挥着举足轻重的作用,数据同步服务使您能够以几分钟而不是几小时或几天的频率从您的数据中获得洞见,从而提升企业的竞争。数据同步服务可在增量数据同步...

灾备规划

RTO和RPO一般由业务部门提出要求,与IT部门共同商议,基于技术可行性、对现有系统影响、成本等多方面综合考量综合得出。RTO和RPO标准的高低与基础设施成本往往有线性关系。您也可以参考国家和行业标准来制定RTO、RPO目标。GB/T 20988-2007...

SA混合云存储阵列

阿里云混合云存储阵列作为软硬一体的存储设备,集成了阿里云存储服务,融合了公共云存储和传统存储阵列的优点:简单 客户无需更改原有的IT架构,就可以像使用本地存储设备一样使用阿里云混合云存储阵列,同时使用本地存储空间和云端存储...

ZooKeeper的使用场景和MSE ZooKeeper的优势

例如,当一个5节点的ZooKeeper集群,部署在3个可用区的时候,它应该是2/2/1的分布,任意一个可用区出现故障,不影响ZooKeeper的整体可用性,同时阿里云AZ之间的延时低于3ms,可以做到故障的风险可控。高可用负载均衡:MSE ZooKeeper提供的...

网络优化

随着云上应用场景的多样性趋势和复杂度增加,需要从如下几个方面考虑网络优化方案:全球部署优化 用户业务的全球布局,带来了基础设施的全球部署需求。阿里云为全球部署的场景提供了 云企业网 CEN(Cloud Enterprise Network)和 ...

DeviceLinkDown

告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换机配置故障。用户侧交换机和设备的连线问题。处理方法 检查用户侧交换机。...

应用场景

场景一:面向大中型企业的多地容灾高可用网络架构 当本地数据中心的关键业务对可用性要求极高时,建议在多个接入点建立专线连接,该拓扑确保了因光纤切断、设备故障或接入点位置故障导致的连接故障的恢复能力。自主申请专线和共享合作伙伴...

DeviceSwitched

告警信息 事件名称 事件级别 状态码 状态描述 DeviceSwitched CRITICAL switched Device Role Changed 可能原因 智能接入网关主设备故障。智能接入网关主设备动态路由邻居故障。处理方法 无需处理。icmsDocProps={'productMethod':'created...

教育实训

线下准备环境浪费时间,复杂软件安装繁琐,远程指导人力消耗大 学习效果差,教与练脱节,互动性差,缺少老师临场指导 线下培训教室,设备利用率低,随着课程变化还需要经常更换设备,投资回报率低 运维效率低,设备出现故障严重影响教学...

如何管理故障

可对故障根因进行原因检查并结构录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
DataV数据可视化 日志服务 云防火墙 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用