Linux OS/관리

장애났을때 서버 확인하는 명령어

서버엔지니어 2023. 3. 12.
728x90

1.uptime

[root@JH ~]# uptime 
 11:06:52 up 0 min,  1 user,  load average: 0.06, 0.01, 0.01

uptime은 현재 대기중인 프로세스가 얼마나 있는지를 나타내는 load average값을 확인하는 가장 쉬운 방법이다. 리눅스 시스템에서 이 값은 대기 중인 프로세스뿐만 아니라 disk I/O와 같은 I/O작업으로 block된 프로세스까지 포함되어 있다. 이를 통해서 얼마나 많은 리소스가 사용되고 있는지 확인할수 있지만, 정확하게 이해할 수는 없다. 

위에 있는 3개의 숫자는 각각 1분, 5분, 15분에 load average 값이다. 이를 통해서 시간의 변화를 알 수 있는데, 예를들어서 장애가 발생했다는 소식을 듣고 해당 instance에 로그인 했을때 1분 동안의 값이 15분 값에 비해서 작다면 이는 장애가 발생하고선 내가 너무 뒤늦게 로그인했음을 알 수 있다. 위 예제에서는 1분 값이 약 30이고 15분 값이 19정도 되는것으로 볼때 최근에 상승한것을 알 수 있다. 여기서 숫자가 이 만큼 높은 것은 많은 의미를 갖고 있다. 아마도 CPU 수요에 문제가 있을거라 추측되지만 이 의미를 확인하기 위해선 뒤에 나오는 vmstat이나 mpstat같은 커맨드를 이용해서 확인할 수 있다.

2. dmesg | tail

[root@JH ~]# dmesg | tail 
[    3.998005] fbcon: qxldrmfb (fb0) is primary device 
[    4.121724] kvm: Nested Paging enabled 
[    4.123454] Console: switching to colour frame buffer device 128x48 
[    4.127424] qxl 0000:00:02.0: fb0: qxldrmfb frame buffer device 
[    4.131879] MCE: In-kernel MCE decoding enabled. 
[    4.139719] AMD64 EDAC driver v3.4.0 
[    4.145394] [drm] Initialized qxl 0.1.0 20120117 for 0000:00:02.0 on minor 0 
[    4.149967] AMD64 EDAC driver v3.4.0 
[    4.304233] nf_conntrack version 0.5.0 (16384 buckets, 65536 max) 
[    5.933589] IPv6: ADDRCONF(NETDEV_UP): eth0: link is not ready

dmesg는 시스템 메세지를 확인할 수 있는 커맨드이다. 부팅시부터 시작해서 모든 커널메세지가 출력되기 때문에 tail을 이용해서 마지막 10줄만 출력한것이다. 이 메세지를 통해서 성능에 문제를 줄 수 있는 에러를 찾을 수 있는데 위의 예제에서는 oom-killer(out of memory)와 TCP request가 드랍된것을 알 수 있다.

3. vmstat 1

[root@JH ~]# vmstat 1 
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu----- 
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st 
 1  0      0 1284664   2088 308624    0    0   675    14  102  131  1  2 97  0  0 
 0  0      0 1284680   2088 308656    0    0     0     0   72  103  0  0 100  0  0 
 0  0      0 1284680   2088 308656    0    0     0     0   51   86  0  0 100  0  0 
 0  0      0 1284680   2088 308656    0    0     0     0   63   95  0  0 100  0  0 
 0  0      0 1284680   2088 308656    0    0     0     0   64   98  0  0 100  0  0 


virtual memory stat의 약자인 vmstat은 왠만한 환경에서 사용 가능한 툴이다. 1을 인자로 준 vmstat은 1초마다 정보를 보여준다. 첫번째 라인은 부팅된 뒤에 평균적인 값을 나타낸다.

확인해봐야할 항목
r: CPU에서 동작중인 프로세스의 숫자입니다. CPU 자원이 포화(saturation)가 발생하는지 확인할때에 좋은 값입니다. . r 값이 CPU의 값보다 큰 경우에 포화되어 있다고 해석된다.
free: free memory를 kb단위로 나타냅니다. free memory가 너무 자리수가 많은 경우 free -m를 이용하면 조금더 편하게 확인할 수 있다.
si, so: swap-in과 swap-out에 대한 값입니다. 0이 아니라면 현재 시스템에 메모리가 부족한것이다.
us, sy, id, wa, st: 모든 CPU의 평균적인 CPU time을 측정할 수 있다. 각각 user time, 커널에서 사용되는 system time, idle, wait I/O 그리고 stolen time순이다(stolen time은 hypervisor가 가상 CPU를 서비스 하는 동안 실제 CPU를 차지한 시간을 이야기한다.).

 

4. mpstat -p ALL 1

[root@JH ~]# yum install sysstat -y 
[root@JH ~]# mpstat -P ALL 1 
Linux 3.10.0-1160.11.1.el7.x86_64 (JH)  02/19/2021      _x86_64_        (2 CPU) 

11:15:24 AM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle 
11:15:25 AM  all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00 
11:15:25 AM    0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00 
11:15:25 AM    1    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00 

11:15:25 AM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle 
11:15:26 AM  all    0.00    0.00    0.00    0.00    0.00    0.00    0.50    0.00    0.00   99.50 
11:15:26 AM    0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00 
11:15:26 AM    1    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00 

11:15:26 AM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle 
11:15:27 AM  all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00 
11:15:27 AM    0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00 
11:15:27 AM    1    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00 

Average:     CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle 
Average:     all    0.00    0.00    0.00    0.00    0.00    0.00    0.17    0.00    0.00   99.83 
Average:       0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00 
Average:       1    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00 


이 커멘드는 CPU time을 CPU 별로 측정할 수 있다. 이 방법을 통하면 각 CPU별로 불균형한 상태를 확인할 수 있는데, 한 CPU만 일하고 있는것은 application이 single thread로 동작한다는 이야기다.

5. pidstat 1

[root@JH ~]# pidstat 1 
Linux 3.10.0-1160.11.1.el7.x86_64 (JH)  02/19/2021      _x86_64_        (2 CPU) 

11:24:20 AM   UID       PID    %usr %system  %guest    %CPU   CPU  Command 

11:24:21 AM   UID       PID    %usr %system  %guest    %CPU   CPU  Command 
11:24:22 AM     0      2780    0.00    1.00    0.00    1.00     0  pidstat 

11:24:22 AM   UID       PID    %usr %system  %guest    %CPU   CPU  Command 
11:24:23 AM     0      2780    1.00    1.00    0.00    2.00     0  pidstat 

11:24:23 AM   UID       PID    %usr %system  %guest    %CPU   CPU  Command 
11:24:24 AM     0      2780    0.00    1.00    0.00    1.00     0  pidstat 

Average:      UID       PID    %usr %system  %guest    %CPU   CPU  Command 
Average:        0      2780    0.25    0.75    0.00    1.00     -  pidstat 

pidstat은 process당 top명령을 수행하는것과 비슷하다. 다만 차이점은 스크린 전체에 표시하는것이 아니라 지속적으로 변화하는 상황을 띄워주기 떄문에 상황변화를 기록하기 좋다.

위 예제를 보면 두개의 java process의 CPU 사용량이 엄청나다. %CPU 항목은 모든 CPU의 전체 사용량을 이야기한다. 따라서 1591%를 사용중인 java process들은 16CPU 가까이 사용중임을 나타내는것이다.

 

6. iostat -xz 1
[root@JH ~]# iostat -xz 1 
Linux 3.10.0-1160.11.1.el7.x86_64 (JH)  02/19/2021      _x86_64_        (2 CPU) 


avg-cpu:  %user   %nice %system %iowait  %steal   %idle 
           0.55    0.00    0.41    0.18    0.04   98.82 

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util 
vda               0.01     0.30    8.18    1.61   381.67    89.62    96.27     0.07    8.18    3.84   30.20   0.71   0.70 
vdb               0.00     0.00    0.11    0.00     2.65     0.00    47.57     0.00    0.24    0.24    0.00   0.16   0.00 


block device(HDD, SSD, …)가 어떻게 동작하는지 이해하기 좋은 툴이다.

확인해봐야할 항목

r/s, w/s rkB/s, wkB/s: read 요청과 write 요청, read kB/s, write kB/s를 나타낸다. 어떤 요청이 가장 많이 들어오는지 확인해볼 수 있는 중요한 지표다. 성능 문제는 생각보다 과도한 요청때문에 발생하는 경우도 있기 때문이다.
await: I/O처리 평균 시간을 밀리초로 표현한 값이다. application한테는 I/O요청을 queue하고 서비스를 받는데 걸리는 시간이기 때문에 application이 이 시간동안 대기하게 된다. 일반적인 장치의 요청 처리 시간보다 긴 경우에는 블럭장치 자체의 문제가 있거나 장치가 포화된 상태임을 알 수 있다.

 

 

7. free -m

[root@JH ~]# free -m 
              total        used        free      shared  buff/cache   available 
Mem:           1837         290         998           8         548        1398 
Swap:             0           0           0 


확인해봐야할 항목

buffers: Block 장치 I/O의 buffer 캐시, 사용량
cached: 파일 시스템에서 사용되는 page cache의 양


위 값들이 0에 가까워 지면 안된다. 이는 곧 높은 Disk I/O가 발생하고 있음을 의미한다(iostat으로 확인 가능). 위 예제는 각각 59MB, 541MB로 괜찮은 정도에 속한다.

““-/+ buffers/cache”는 사용중인 메모리와 여유 메모리의 양을 나타낸다. 리눅스는 빠르게 다시 애플리케이션에 메모리가 할당될 수 있도록 캐시메모리를 사용한다. 따라서 캐시 메모리도 여유 메모리에 포함되어 보여야한다. 캐시메모리 또한 여유메모리로 계산하지 않는 착각으로 인해서 linuxatemyram란 사이트까지 있다.

8. sar -n DEV 1

[root@JH ~]# sar -n DEV 1 
Linux 3.10.0-1160.11.1.el7.x86_64 (JH)  02/19/2021      _x86_64_        (2 CPU) 

11:27:52 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s 
11:27:53 AM      eth0      1.00      1.00      0.05      0.12      0.00      0.00      0.00 
11:27:53 AM        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00 

11:27:53 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s 
11:27:54 AM      eth0      1.00      1.00      0.05      0.18      0.00      0.00      0.00 
11:27:54 AM        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00 

11:27:54 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s 
11:27:54 AM      eth0      5.26      5.26      0.44      2.00      0.00      0.00      0.00 
11:27:54 AM        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00 

Average:        IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s 
Average:         eth0      1.68      1.68      0.11      0.44      0.00      0.00      0.00 
Average:           lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00


이 툴을 사용하면 network throughput(Rx, Tx KB/s)을 측정할수 있다. 위 예제에서는 eth0의 수신량이 약 19Mbytes/s(21999.10rxkB/s)이다. 이는 176Mbits/s인데 한계인 1Gbit/s에 아직 많이 못 미치는 값이다.

위 값중 %ifutil은 nicstat로도 측정 가능한 네트워크 장치 사용률이다. 하지만 nicstat에서도 그렇듯 정확한 값을 가져오는게 어려워서 위 예제에서도 잘 작동하지 않는다.

 

9. sar -n TCP,ETCP 1

[root@JH ~]# sar -n TCP,ETCP 1 
Linux 3.10.0-1160.11.1.el7.x86_64 (JH)  02/19/2021      _x86_64_        (2 CPU) 

11:29:36 AM  active/s passive/s    iseg/s    oseg/s 
11:29:37 AM      0.00      0.00      1.00      0.00 

11:29:36 AM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s 
11:29:37 AM      0.00      0.00      0.00      0.00      0.00 

11:29:37 AM  active/s passive/s    iseg/s    oseg/s 
11:29:38 AM      0.00      0.00      1.00      2.00 

11:29:37 AM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s 
11:29:38 AM      0.00      0.00      1.00      0.00      0.00
 
Average:     active/s passive/s    iseg/s    oseg/s 
Average:         0.00      0.00      1.83      1.83 

Average:     atmptf/s  estres/s retrans/s isegerr/s   orsts/s 
Average:         0.00      0.00      0.46      0.00      0.00


이 값은 TCP 통신량을 요약해서 보여준다.

active/s: 로컬에서부터 요청한 초당 TCP 커넥션 수를 보여준다 (예를들어, connect()를 통한 연결).
passive/s: 원격으로부터 요청된 초당 TCP 커넥션 수를 보여준다 (예를들어, accept()를 통한 연결).
retrans/s: 초당 TCP 재연결 수를 보여준다.
active와 passive 수를 보는것은 서버의 부하를 대략적으로 측정하는데에 편리하다. 위 설명을 보면 active를 outbound passive를 inbound 연결로 판단할 수 있는데, 꼭 그렇지만은 않다. (예를들면 localhost에서 localhost로 연결같은 connection)

retransmits은 네트워크나 서버의 이슈가 있음을 이야기한다. 신뢰성이 떨어지는 네트워크 환경이나(공용인터넷), 서버가 처리할 수 있는 용량 이상의 커넥션이 붙어서 패킷이 드랍되는것을 이야기한다. 위 예제에서는 초당 하나의 TCP 서버가 들어오는것을 알 수 있다.

10. top

[root@JH ~]# top 
top - 11:31:04 up 24 min,  1 user,  load average: 0.00, 0.01, 0.03 
Tasks:  96 total,   2 running,  94 sleeping,   0 stopped,   0 zombie 
%Cpu(s):  0.0 us,  0.0 sy,  0.0 ni, 96.9 id,  0.0 wa,  0.0 hi,  3.1 si,  0.0 st 
KiB Mem :  1881844 total,  1014384 free,   305368 used,   562092 buff/cache 
KiB Swap:        0 total,        0 free,        0 used.  1424316 avail Mem 

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND 
 3203 root      20   0  162104   2200   1532 R   6.2  0.1   0:00.01 top 
    1 root      20   0  125508   4064   2636 S   0.0  0.2   0:02.54 systemd 
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kthreadd 
    4 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H 
    5 root      20   0       0      0      0 S   0.0  0.0   0:00.03 kworker/u4:0 
    6 root      20   0       0      0      0 S   0.0  0.0   0:00.03 ksoftirqd/0 
    7 root      rt   0       0      0      0 S   0.0  0.0   0:00.00 migration/0 
    8 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcu_bh 
    9 root      20   0       0      0      0 R   0.0  0.0   0:00.36 rcu_sched 
   10 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 lru-add-drain 

top 명령어는 위에서 체크해본 다양한 측정치를 쉽게 체크할 수 있다. 시스템 전반적으로 값을 확인하기 쉽다는 장점이 있다. 화면이 지속적으로 바뀌는 점 떄문에 패턴을 찾는것이 어렵다. 일시적으로 멈추는 현상을 잡기 위해서도 화면을 주기적으로 빠르게 멈춰주지 않으면 찾기 힘들다(Ctrl+S는 업데이트를 중지시키고, Ctrl+Q는 다시 시작시킨다), 그리고 화면이 지워져버린다.

11. df -Th 

 [root@JH ~]# df -Th 
Filesystem      Type        Size     Used Avail   Use% Mounted on 
devtmpfs       devtmpfs  895M        0  895M   0%  /dev 
tmpfs            tmpfs      919M        0  919M   0%  /dev/shm 
tmpfs            tmpfs      919M   8.6M  911M   1%  /run 
tmpfs            tmpfs      919M       0   919M   0%  /sys/fs/cgroup 
/dev/vda1      xfs          25G      24G    1.9G  93%  / 
tmpfs           tmpfs      184M        0  184M   0%   /run/user/0 


디스크 용량이 다 차게된다면 서버도 먹통이 된다. Avail 쪽을 잘 확인하자
 
12. du -sh /* 
 
[root@JH ~]# du -sh /* 
0       /bin 
455M    /boot 
0       /dev 
38M     /etc 
628K    /home 
0       /lib 
0       /lib64 
0       /media 
0       /mnt 
0       /opt 
0       /proc 
56K     /root 
8.6M    /run 
0       /sbin 
0       /srv 
0       /sys 
4.0K    /tmp 
18G     /usr 
4.6G    /var


디렉토리 별로 디스크 용량을 파악할 수 있다.

댓글