> 服务器

新品日历

更多频道

Get腾讯云服务器智能故障诊断“秘籍”

北京时间2021年7月27日,由OCP社区主办,浪潮承办的第三届OCPChina Day2021在北京举行,来自Intel、浪潮、腾讯、百度、阿里、西部数据、希捷、燧原科技等23家知名公司的技术专家,带来50余场报告,分享开放计算在数据中心基础设施领域的创新成果,在人工智能、边缘计算等新兴技术领域的探索和应用。本次大会,腾讯云与浪潮联合发布了《数据中心服务器智能故障诊断TIFDS(Tencent& Inspur Fault Diagnosis System)系统技术白皮书》,对破解大规模数据中心运维“痼疾”具有重要价值。

当数字化大潮浩浩汤汤而来,视频、金融、教育、医疗……,各个行业正在快速上云。随着互联网企业的崛起,云计算等新兴技术的快速应用,伴随而来在全球范围内兴起了建设大规模数据中心的热潮。云计算的快速扩张带来了数据中心服务器数量的爆发式增长,随之而来的服务器运维管理复杂度和难度也越来越大,而传统的海量服务器故障运营面临着更大的挑战和更高昂的成本,从最初的脚本运维、工具运维到平台运维演进至今,人力已接近极限,越来越无法满足快速修复故障和恢复业务运行的要求。

举个例子,当数据中心的服务器出现故障后,传统的解决方法是数据中心现场的服务器厂商工程师前往现场把故障服务器下架。然后再把故障服务器的数据读取出来,现场先进行初步分析并汇报给厂商的研发部门,后方再进行分析,整个流程耗时非常长,不利于终端业务的快速恢复。

腾讯云星星海实验室研发副总监刘超

为了解决当下数据中心海量服务器运维的难题,腾讯云联合浪潮在第三届OCPChina Day 2021上发布了《数据中心服务器智能故障诊断TIFDS(Tencent& Inspur Fault DiagnosisSystem)系统技术白皮书》,白皮书详细解读了当前大规模数据中心运维面临的挑战,阐述了腾讯云与浪潮联合研发的TIFDS系统架构,为大规模数据中心提升服务器运维效率,保障数据中心稳定运行提供重要参考。

TIFDS系统

TIFDS是服务器健康监管技术及故障预警诊断技术的总称,旨在实现运维工作由人工离线分析向自动智能在线识别的方向发展,建立一套以带外BMC为中心的故障诊断系统。TIFDS系统具有风险实时预警,故障精准诊断和日志定制化透明安全等特点,对提升大规模数据中心运维效率具有重要意义。

具体来说,TIFDS系统对服务器故障运维具有3个重要功能,分别是:

风险实时预警:该系统基于腾讯云现网运行的百万台服务器运维经验,结合AI智能算法,可对非宕机类故障进行实时预警,降低服务器高负荷运行下突然失效的风险。

故障精准诊断:浪潮构建专家经验库,将故障自动明确化率提升至95%以上,远高于业界平均标准,秒级告警,精准反馈故障触发源,提升运维效率。

日志定制化透明安全:创新性的按照腾讯云需求联合定制日志输出上报方式,使诊断过程清晰透明,并对疑难问题进行识别,建立了线上联合诊断系统,不断提升系统运维效率。

为了实现TIFDS系统技术白皮书中的内容,腾讯云联合浪潮做出了巨大的努力。腾讯云星星海实验室研发副总监刘超表示,“浪潮作为国内服务器厂商,无论从研发能力还是生产能力、市场影响来说,都是腾讯云最好的选择之一。双方在合作过程中有许多互补之处,腾讯云也能通过浪潮研发全栈服务器的能力中,获得自己所需要的产品端形态和新技术。通过从客户在应用方面的理解,结合浪潮的研发能力,才能创造出TIFDS系统。”

腾讯云星星海实验室研发副总监刘超

想要让TIFDS系统实现其功能,首先需要构建故障诊断计算模型,模型的构建初期,腾讯云将海量的服务器运维数据进行梳理,交由浪潮技术工程师,对各类故障进行分析,形成故障诊断专家经验库,构建一套故障诊断的底层代码模型,对服务器故障进行智能化的故障诊断,然后,根据大量服务器运行实践,反复对模型进行校验和反向验证,不断迭代提升模型的诊断精度。

TIFDS系统的构建,是浪潮与客户基于联合创新的JDM模式合作的最佳范例,“TIFDS融合了腾讯云和浪潮双方各自的优势,是数据中心内运维管理领域的一个优秀产品,为提升数据中心运维效率和云计算稳定性具有重要的借鉴意义。”浪潮腾讯大客户部副主任倪旭华介绍道。

浪潮腾讯大客户部副主任倪旭华

在与浪潮的合作中,刘超感受到了浪潮以客户为中心的优势。比如,在腾讯云数据中心存在海量的服务器,这些服务器数据的收集处理,工作量相当之大。再比如,腾讯云的数据中心分布在全国各地,只要腾讯云有需求,浪潮随时可以派出技术工程师到数据中心的现场进行数据分析、数据提取或者提取训练所用数据。浪潮工程师在合作过程中,表现出来的“迎难而上”、“奔赴火线”的精神和热情,令腾讯云印象深刻。

数据中心越建越多、越建越大,未来数据中心运维必须要走向智能化。腾讯云和浪潮基于这一洞察,联合推出的TIFDS系统是实现数据中心运维智能化的第一步。未来,随着技术的成熟和行业需求的不断攀升,数据中心的无人化管理、自修复技术将不断发展。

更多关于《数据中心服务器智能故障诊断TIFDS系统技术白皮书》详细内容,请点击下载

文章提到的产品

小米AX3600

小米AX3600

[经销商] 京东商城

[产品售价] 498元

打开ZOL新闻,阅读体验更佳

产品推荐

热门评论

更多评论

相关阅读

点击加载更多
全站导航
0

发评论,赚金豆

0 纠错