主动支持服务

为客户量身打造高价值的支持服务,重点加入了主动支持的服务元素,满足客户高品质服务的需求
  • 首页
  • 服务
  • 服务详情

    1. 适用产品

    本服务覆盖的产品范围为超聚变生产的设备及超聚变转售的第三方产品。且相关产品已购买 Super-Care 金牌+或以上级别的维保服务,服务期限在对应的维保服务期限内。

    2. 服务描述

    主动支持服务是超聚变面向客户关键业务系统提供的主动式支持服务,主要提供如下五部分内容。

    2.1 VIP TAC

    VIP TAC提供400专属VIP接入通道,分钟级接通;

    VIP TAC专线及专属标识提供专线值班经理应急支持;

    VIP TAC关注Standby Case进展状态,当期间出现故障时及时进行处理;

    VIP TAC提供P1/P2问题单的15分钟内响应,P3/P4问题单30分钟内响应等级要求。

    • VIP TAC服务双方职责列表:
    编号
    活动
    超聚变责任
    客户职责
    1
    按照合同规定,提供VIP短号
    责任方
    2
    拨打400电话,输入短号快速接入。(首次拨打后,第二次拨打可自动识别号码,进入VIP通道)
    责任方
    3
    VIP坐席接通客户电话,加速处理客户问题
    责任方
    协助方

    2.2 设备健康检查

    设备健康检查服务是针对双方约定的您网络中的超聚变生产的设备或超聚变转售的第三方产品的数据配置、运行状态等各项内容进行检查和分析,发现设备运行中存在的问题和潜在风险,并对检查结果进行总结报告并提出相应的措施,保障您的服务器安全、高效运行。

    该项服务一般在网管运维中心或者通过其他工具完成。设备健康检查结束后,超聚变会向您提交《设备健康检查报告》。

    • 设备健康检查服务中的双方职责列表:
    编号
    活动
    超聚变责任
    客户职责
    1
    按照合同规定的服务频次,提交设备健康检查服务申请
    责任方
    2
    批准服务申请,并提供必要的协助
    责任方
    3
    按客户提供的站点信息制定健康检查计划
    责任方
    协助方
    4
    提供远程接入通道以及临时接入帐号及密码
    责任方
    5
    确保超聚变工程师可以方便地进出工作地点,授权超聚变工程师获取操作相应设备的权限并保障工作环境的安全。(如有必要)
    责任方
    6
    检查设备的配置、运行状态各项内容,收集用于分析的相关信息;此处收集的信息用于支撑固件版本分析、预防性维护
    责任方

    2.3 固件版本分析

    随着客户在网设备的逐渐增多、服务器型号千差万别、不同购买批次的设备入网,服务器的固件版本难以统计和管理,各个版本是否存在风险、是否需要升级,对于运维人员来说是一项复杂而有挑战的工作。

    超聚变固件版本分析服务,可以对超聚变服务器的BMC(主备)、BIOS、CPLD、Raid卡、硬盘等版本进行统计,评估版本存在的风险和问题,并且给出合理化建议。

    • 双方职责列表:
    编号
    活动
    超聚变责任
    客户职责
    1
    通过2.2设备健康检查,对设备进行信息收集
    责任方
    协助方
    2
    提供服务器当前BMC、BIOS等版本清单
    责任方
    3
    针对当前版本,给出是否升级到目标版本的建议
    责任方
    4
    针对BMC的主备版本不一致问题,给出升级建议
    责任方
    5
    给出预警整改等其它优化建议
    责任方

    2.4 预防性维护

    简单的设备健康检查可以快速识别设备当前各个部件的状态,但无法对有潜在风险和历史日志进行深入的分析,预防性维护包括三个关键动作:专家/工具日志诊断、识别有潜在风险的硬件(如内存)、提前对未损坏的硬件进行更换,避免宕机风险。

    • 双方职责列表:
    编号
    活动
    超聚变责任
    客户职责
    1
    通过2.2设备健康检查,对设备进行信息收集
    责任方
    协助方
    2
    对历史日志进行诊断,分析异常信息
    责任方
    3
    针对硬盘、内存、网卡、Raid卡等部件给出风险度评估
    责任方
    4
    安排工程师上门,对潜在风险的部件进行更换
    责任方

    2.5 VIP服务报告

    针对购买了主动支持服务的客户,超聚变提供VIP服务报告:

    包括如下内容:

    • 设备信息列表:型号、在保时间、服务级别、数量;
    • 网上问题汇总:问题处理情况、现场服务情况、硬件更换情况、遗留问题进展;
    • 主动服务状态与进展;
    • 设备健康度分析。

    3. 服务内容

    3.1 VIP TAC

    客户获取VIP短号后,拨打超聚变售后服务热线电话(400-080-6888)进入VIP坐席,可自动识别号码。

    VIP问题处理SLA:

    问题等级
    平均接通时间(connect Time)
    平均工程师响应时间(Response Time)
    平均硬件恢复时间(Restore Time)
    P1
    分钟级接通
    30min->15min
    4hour(需叠加白金+服务)
    P2
    30min->15min
    8hour(需叠加金牌+服务)
    P3
    30min
    48hour(需叠加标准+服务)
    P4
    30min
    /

    3.2 设备健康检查

    关注是否曾经购买过驻场,在维保到期后重点关注续签场景。

    检查设备数据配置、运行状态,通过最直观的表现,发现潜在故障可能的诱因,挖掘问题本质,给出健康检查总结建议。

    以2288H V5服务器为例,健康检查的内容主要包括:

    • 设备基本信息检查:检查设备的基本信息,如配置检查、版本兼容性检查、版本风险检查、资产信息收集、日志收集、基线版本检查等。
    • 运行情况检查:检查设备的运行情况,如硬件运行状态、设备复位情况、设备温度等是否正常。
    服务项
    服务内容
    健康检查前准备

    执行巡检需保障:

    • PC机和待操作的服务器iBMC网络、HMM/CMC网络、操作系统网络相通

    在实施设备健康检查前,超聚变及超聚变认证服务合作伙伴工程师将与您就以下问题进行确认:

    • 负责人及相关联系信息
    • 设备型号,数量
    • 服务器iBMC/HMM/CMC管理网口IP地址
    • 服务器iBMC/HMM/CMC用户名和密码
    • 操作系统IP地址
    • 操作系统用户名和密码
    健康检查
    • 配置检查:查询系统上电状态
    • 资产信息收集:收集产品名称、硬件位置、ESN信息、BIOS版本、BMC版本、固件版本、CPU槽位和型号、系统时间等
    • 版本兼容性检查:固件和驱动兼容性检查、CPU和OS兼容性检查等
    • 日志收集:收集运行日志、告警信息等
    • 运行状况检查:硬件运行状态、设备复位情况、设备温度等
    总结建议

    根据检查情况,分析网络问题和潜在风险,提交《设备健康检查报告》,提出解决措施或建议

    3.3 固件版本分析

    • 给出服务器当前BMC、BIOS版本清单。
    服务器sn
    IP地址
    部件
    版本
    iBMC
    3.11
    iBMC
    3.08
    iBMC
    3.08
    iBMC
    3.08
    • 针对当前版本,给出版本存在的风险和问题。

    本次分析中:16台版本为3.08、3.11及3.31,当前版本涉及BMC诊断数据库过大预警问题,建议升级。

    • 针对风险和问题,给出合理化建议,例如固件升级到哪一个版本、升级策略。
    服务器机型
    IBMC当前版本
    IBMC目标版本
    1288H V5 2288H V5 2488H V5
    低于3.25(不包含)
    3.25
    高于3.30(包含)
    3.54及以上

    3.4 预防性维护

    • 研发专家/智能工具对服务器历史日志进行诊断,分析异常信息:
    风险类别
    风险内容
    内存风险识别(FDM工具)

    CE(Corrected Error):可纠正错误

    CE_storm:上报ce的时间间隔小于1MIN连续十次为一次CE风暴

    CE_overflow:同一内存条上报CE错误超过阈值(6000),报overflow

    多比特错误检测:内存同一个颗粒有多个比特位错误

    硬盘风险识别

    1、IO超时统计

    2、机械盘:硬盘坏道统计

    3、SSD盘:SATA接口:重定向扇区Reallocated_Sectors_Count、坏块Current_Pending_Sector、不稳定扇区Offline_Uncorrectable

    SAS接口:Glist生产缺陷、读/写及自身校验的错误码(Total uncorrected errors)

    4、sense code值:3/xx/xx、4/xx/xx

    5、media error count、接收端错误代码、硬盘背板接收端错误代码

    Raid卡

    1、Controller encountered a fatal error and was reset

    2、Raid卡debug打印:return 11D5

    网卡

    通过OS日志查看链路的误码和丢包

    • 针对硬盘、内存等部件给出风险度评估:
    服务器SN
    风险类型
    Slot
    处理方案
    内存近期较多CE(Corrected Error)
    DIMM140
    预更换
    CE_storm
    DIMM110
    预更换
    硬盘IO超时
    Slot2
    预更换
    • 安排工程师上门,对有潜在风险的部件进行更换。

    3.5 VIP服务报告

    主要内容覆盖设备信息统计、服务执行情况、设备健康度分析、后续工作计划、运维建议等。

    4. 服务免责

    超聚变服务免责说明如下:

    1、下列情况可能导致超聚变服务不能按要求提供:

    1)不可抗力(如:火灾、水灾、地震、雷击等)引起的意外情况;

    2)社会性问题(如:动乱、战争、罢工、政府管制等)引起的服务条件恶化;

    3)能量供应中断(如:电力、供水、油料等)引起的服务无法实施。

    2、超聚变不提供本文不涉及的任何明确或隐含的商业和技术保证。

    3、任何情形下,超聚变都不因本服务说明书对您的直接或间接经济损失承担责任,超聚变对由于其责任所导致的您的损失的最大赔偿额不高于购买该产品/服务所支付的金额。

    4、本服务是一项可以选择的服务,您可以选择是否购买相关的服务并选择何时终止。如果您选择购买相关的服务,则表示您允许超聚变在提供服务时访问、采集和处理故障、检测、定位、调试相关的信息。超聚变将在您同意的前提下,遵从您的要求访问和处理相关信息。由于您是这些信息的控制者,超聚变无法确认此类信息是否包含您的机密信息或个人数据,应当保证其将根据所适用的法律要求,获得或保留所有必要的同意、许可、授权(“同意”)用于让超聚变提供此服务,使超聚变在提供相关服务时不会违反适用的法律要求、您的隐私政策、或者您与用户的协议。