MTBF测试
目前,终端侧的可靠性测试基本上是采用称为”MTBF测试”的专有测试活动来进行的。
中国移动2015版的MTBF测试的标准是:每轮测试5台终端并行连续循环执行以下用例7X24小时,期间记录系统级问题,包括死机、重启、白屏、脱 网等严重问题。最终计算终端的无故障运行时间
T:T = 5X7X24 /(故障数)
如果终端支持稳定性测试中对应的本地及通信类业务,则要求终端对于支持的业务满足稳定性测试中,在 TD-SCDMA、TD-LTE 网络下平均无故障运行时长指标不低于 250 小时。零售价 2500 元以上不低 于 350 小时。
北美电信运营商AT&T的MTBF指标是这样定义的:7台手机每天24小时不间断运行AT&T规定的测试,测试内容包括2G/3G语音呼叫、短彩信、浏览器上网、电话本操作。测试过程中出现的测试用例失败情况都会记录下来,然后用7台手机总的运行时间除以全部手机出现的测试失败次数,即得到MTBF值。整个测试过程全部采用自动化方式,并且都在AT&T的现网环境下进行,该测试已经成为所有与AT&T合作的终端厂商都必须通过的测试,而且是所有厂商公认的最难通过的测试。
MTBF测试与系统可靠性
可以看出,MTBF测试标准的定义与上文介绍的System Availability的概念不是完全一致,因为移动终端毕竟与服务端从架构,实现方法,到用户群体都不尽相同;严格来讲MTBF测试是终端可靠性测试其中的稳定性测试部分。然而有不少地方是两者是相通和可以借鉴的。比如:
• MTBF中的故障数可以近似理解为Outage,系统重启属于Total Outage, 模块Crash属于Partial Outage
• 提升可靠性都是需要降低故障数减小downtime
• 在系统和应用设计中都需考虑如何减少错误,或者出现错误如何恢复。
• 终端上的一些后台服务可以近似理解为服务端应用,虽然不能完全照搬上文中提到容灾和恢复的场景,但是可以借鉴其中的一些思路。
• 终端上可以通过参考DPM的概念增加数据衡量指标,但可能不需要也不现实每个场景都执行100万次操作,可以依据实际情况调整标准要求
• 可以参考Failover策略中错误探测,隔离,恢复的操作在出现错误时及时发现,快速恢复重新启动来减少对用户造成的负面影响,恢复时间即Failover Recovery Time就成了一个关键指标