最近遇到一個(gè)服務(wù)器(Ubuntu Server 18.04 LTS 64位)負(fù)載幾千的值,但是CPU使用率并不是很高。如下圖:
一開(kāi)始以為是平臺(tái)顯示問(wèn)題,但是遠(yuǎn)程到服務(wù)器以后,發(fā)現(xiàn)服務(wù)器就是這么高的負(fù)載值:
實(shí)際上也沒(méi)有什么等待CPU的進(jìn)程:
過(guò)了十多分鐘這個(gè)負(fù)載值還在增加:
感覺(jué)這個(gè)系統(tǒng)負(fù)載出現(xiàn)了bug,是在疊加,根據(jù)1分鐘、5分鐘和15分鐘最近三十天的監(jiān)控?cái)?shù)據(jù),發(fā)現(xiàn)負(fù)載快到1萬(wàn)的時(shí)候,就會(huì)重新疊加計(jì)算。
提交了工單,讓售后幫忙分析是什么原因,但是他們也找不到原因。
第二天發(fā)現(xiàn)負(fù)載重新開(kāi)始疊加了:
但是平臺(tái)歷史負(fù)載監(jiān)控顯示并不是從0開(kāi)始重新疊加的:
無(wú)意間發(fā)現(xiàn)另外一個(gè)dev環(huán)境的服務(wù)器也是一樣的問(wèn)題:
直接重啟了這臺(tái)dev的服務(wù)器以后就正常了:
第一次遇到這么離奇的事情,個(gè)人猜測(cè)是有什么bug導(dǎo)致,大概率是zombie進(jìn)程的問(wèn)題。
贊
0
賞