CONE CI/CD -> OpenShift

Devmes Tech Blog

A static OpenShift migration snapshot generated from the current public Devmes Ghost post inventory for the Gitea, Tekton, Harbor, ArgoCD, and OpenShift blue-green route path.

Posts
623
Source
Gitea
Build
Tekton
Deploy
Blue-Green

Blog OCP Migration Snapshot

This package contains public blog titles, excerpts, tags, publish dates, and public URLs only. It does not embed Ghost database dumps, Admin API keys, payment secrets, kubeconfig data, or registry credentials.

Blue-green routing keeps one color available as rollback while the stable OpenShift Route is promoted through the CONE CI/CD flow.

클라우드 운영 트러블슈팅: coalesce 이후 스냅샷 체인을 확인할 때 - 스토리지 프로세스 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 스토리지 계층 장애는 조급하게 attach/detach를 반복할수록 상태가 더 나빠질 수 있다. 특히 VDI/VBD, snapshot chain, tapdisk가 얽힌 경우에는 어떤 계층이 아직 disk를 붙잡고 있는지부터 봐야 한다. 볼륨 장애는 포털의 attach/detach 상태...

Original note

클라우드 운영 트러블슈팅: 스토리지 상태와 VM 상태가 다르게 보일 때 - 스토리지 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 스토리지 계층 장애는 조급하게 attach/detach를 반복할수록 상태가 더 나빠질 수 있다. 특히 VDI/VBD, snapshot chain, tapdisk가 얽힌 경우에는 어떤 계층이 아직 disk를 붙잡고 있는지부터 봐야 한다. 볼륨 장애는 포털의 attach/detach 상태...

Original note

클라우드 운영 트러블슈팅: compute node 장애 뒤 VM 위치를 정리할 때 - host 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. compute node 장애는 한 대의 서버 문제가 아니라 그 위에 올라간 VM 묶음의 서비스 장애로 번진다. 그래서 첫 판단은 hardware 교체가 아니라, 남아 있는 VM을 어디까지 안전하게 옮길 수 있는지에서 시작한다. 운영 장애 대응은 원인을 바로 단정하기보다 계층을 나눠 증...

Original note

클라우드 운영 트러블슈팅: compute node 장애를 VM 영향도로 풀어볼 때 - host 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. compute node 장애는 한 대의 서버 문제가 아니라 그 위에 올라간 VM 묶음의 서비스 장애로 번진다. 그래서 첫 판단은 hardware 교체가 아니라, 남아 있는 VM을 어디까지 안전하게 옮길 수 있는지에서 시작한다. 운영 장애 대응은 원인을 바로 단정하기보다 계층을 나눠 증...

Original note

클라우드 운영 트러블슈팅: VM이 커널 단계에서 멈출 때 - 부팅 로그 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. VM이 켜지지 않는다는 말은 platform 장애일 수도 있고, guest OS의 부팅 장애일 수도 있다. 운영자는 console에서 보이는 화면과 hypervisor의 power state를 분리해서 원인을 좁혀야 한다. 부팅 실패는 cloud platform 장애처럼 접수되지만 실...

Original note

클라우드 운영 트러블슈팅: VM이 커널 단계에서 멈출 때 - hypervisor 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. VM이 켜지지 않는다는 말은 platform 장애일 수도 있고, guest OS의 부팅 장애일 수도 있다. 운영자는 console에서 보이는 화면과 hypervisor의 power state를 분리해서 원인을 좁혀야 한다. 부팅 실패는 cloud platform 장애처럼 접수되지만 실...

Original note

클라우드 운영 트러블슈팅: Virtual Router 경로에서 통신이 막힐 때 - 네트워크 경로 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. Virtual Router 계층 문제는 사용자가 보기에는 단순 접속 장애지만, 실제로는 NAT rule, conntrack, security rule, upstream route가 같이 얽힌다. 이 글은 rule이 있는 것처럼 보이는데 통신이 실패하는 유형을 기준으로 정리했다. 네트워...

Original note

클라우드 운영 트러블슈팅: tapdisk가 디스크 I/O를 붙잡을 때 - 스토리지 프로세스 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 스토리지 계층 장애는 조급하게 attach/detach를 반복할수록 상태가 더 나빠질 수 있다. 특히 VDI/VBD, snapshot chain, tapdisk가 얽힌 경우에는 어떤 계층이 아직 disk를 붙잡고 있는지부터 봐야 한다. 볼륨 장애는 포털의 attach/detach 상태...

Original note

클라우드 운영 트러블슈팅: compute node 장애 뒤 VM 위치를 정리할 때 - 네트워크 경로 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. Virtual Router 계층 문제는 사용자가 보기에는 단순 접속 장애지만, 실제로는 NAT rule, conntrack, security rule, upstream route가 같이 얽힌다. 이 글은 rule이 있는 것처럼 보이는데 통신이 실패하는 유형을 기준으로 정리했다. 네트워...

Original note

클라우드 운영 트러블슈팅: compute node 장애 뒤 VM 위치를 정리할 때 - host 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. compute node 장애는 한 대의 서버 문제가 아니라 그 위에 올라간 VM 묶음의 서비스 장애로 번진다. 그래서 첫 판단은 hardware 교체가 아니라, 남아 있는 VM을 어디까지 안전하게 옮길 수 있는지에서 시작한다. 운영 장애 대응은 원인을 바로 단정하기보다 계층을 나눠 증...

Original note

클라우드 운영 트러블슈팅: VM 접속 방식이 바뀌어 로그인에 실패할 때 - 네트워크 경로 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. Virtual Router 계층 문제는 사용자가 보기에는 단순 접속 장애지만, 실제로는 NAT rule, conntrack, security rule, upstream route가 같이 얽힌다. 이 글은 rule이 있는 것처럼 보이는데 통신이 실패하는 유형을 기준으로 정리했다. 네트워...

Original note

클라우드 운영 트러블슈팅: VM 간 통신 장애를 계층별로 좁힐 때 - DB 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. Virtual Router 계층 문제는 사용자가 보기에는 단순 접속 장애지만, 실제로는 NAT rule, conntrack, security rule, upstream route가 같이 얽힌다. 이 글은 rule이 있는 것처럼 보이는데 통신이 실패하는 유형을 기준으로 정리했다. 네트워...

Original note

클라우드 운영 트러블슈팅: VM stop이 끝나지 않을 때 - 성능 지표 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 성능 장애는 숫자가 많아서 오히려 헷갈린다. CPU load, memory, I/O wait, qemu process, tapdisk 로그가 서로 다른 이야기를 할 수 있으므로, 장애 시각을 기준으로 증거를 재배열해야 한다. 성능 장애는 guest 내부 지표만 보면 절반만 본 것이다....

Original note

클라우드 운영 트러블슈팅: qemu domain과 VM 인스턴스를 매핑할 때 - hypervisor 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. VM이 켜지지 않는다는 말은 platform 장애일 수도 있고, guest OS의 부팅 장애일 수도 있다. 운영자는 console에서 보이는 화면과 hypervisor의 power state를 분리해서 원인을 좁혀야 한다. 부팅 실패는 cloud platform 장애처럼 접수되지만 실...

Original note

클라우드 운영 트러블슈팅: conntrack 한계로 세션이 끊길 때 - 패킷 흐름 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. Virtual Router 계층 문제는 사용자가 보기에는 단순 접속 장애지만, 실제로는 NAT rule, conntrack, security rule, upstream route가 같이 얽힌다. 이 글은 rule이 있는 것처럼 보이는데 통신이 실패하는 유형을 기준으로 정리했다. 네트워...

Original note

클라우드 운영 트러블슈팅: 모니터링 화면에서 리소스가 누락될 때 - 모니터링 수집 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 성능 장애는 숫자가 많아서 오히려 헷갈린다. CPU load, memory, I/O wait, qemu process, tapdisk 로그가 서로 다른 이야기를 할 수 있으므로, 장애 시각을 기준으로 증거를 재배열해야 한다. 성능 장애는 guest 내부 지표만 보면 절반만 본 것이다....

Original note

클라우드 운영 트러블슈팅: 모니터링 화면과 실제 리소스가 다를 때 - 수집 흐름 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 모니터링과 포털 장애는 실제 서비스 장애와 다르게 접근해야 한다. 화면이 틀렸는지, 수집기가 멈췄는지, 원천 platform 값이 바뀌었는지 분리해야 잘못된 장애 전파를 막을 수 있다. 모니터링 누락은 실제 VM 장애와 다른 성격의 문제다. platform API 값은 정상인데 das...

Original note

클라우드 운영 트러블슈팅: compute node 장애를 VM 영향도로 풀어볼 때 - host 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. compute node 장애는 한 대의 서버 문제가 아니라 그 위에 올라간 VM 묶음의 서비스 장애로 번진다. 그래서 첫 판단은 hardware 교체가 아니라, 남아 있는 VM을 어디까지 안전하게 옮길 수 있는지에서 시작한다. 운영 장애 대응은 원인을 바로 단정하기보다 계층을 나눠 증...

Original note

클라우드 운영 트러블슈팅: VM 간 통신 장애를 계층별로 좁힐 때 - DB 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. Virtual Router 계층 문제는 사용자가 보기에는 단순 접속 장애지만, 실제로는 NAT rule, conntrack, security rule, upstream route가 같이 얽힌다. 이 글은 rule이 있는 것처럼 보이는데 통신이 실패하는 유형을 기준으로 정리했다. 네트워...

Original note

클라우드 운영 트러블슈팅: VM 접속 방식이 바뀌어 로그인에 실패할 때 - DB 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 성능 장애는 숫자가 많아서 오히려 헷갈린다. CPU load, memory, I/O wait, qemu process, tapdisk 로그가 서로 다른 이야기를 할 수 있으므로, 장애 시각을 기준으로 증거를 재배열해야 한다. 성능 장애는 guest 내부 지표만 보면 절반만 본 것이다....

Original note

클라우드 운영 트러블슈팅: 시간 동기화가 관리 작업을 흔들 때 - 성능 지표 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 성능 장애는 숫자가 많아서 오히려 헷갈린다. CPU load, memory, I/O wait, qemu process, tapdisk 로그가 서로 다른 이야기를 할 수 있으므로, 장애 시각을 기준으로 증거를 재배열해야 한다. 성능 장애는 guest 내부 지표만 보면 절반만 본 것이다....

Original note

클라우드 운영 트러블슈팅: VM stop이 끝나지 않을 때 - 네트워크 경로 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. Virtual Router 계층 문제는 사용자가 보기에는 단순 접속 장애지만, 실제로는 NAT rule, conntrack, security rule, upstream route가 같이 얽힌다. 이 글은 rule이 있는 것처럼 보이는데 통신이 실패하는 유형을 기준으로 정리했다. 네트워...

Original note

클라우드 운영 트러블슈팅: VM 간 통신 장애를 계층별로 좁힐 때 - 네트워크 경로 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. Virtual Router 계층 문제는 사용자가 보기에는 단순 접속 장애지만, 실제로는 NAT rule, conntrack, security rule, upstream route가 같이 얽힌다. 이 글은 rule이 있는 것처럼 보이는데 통신이 실패하는 유형을 기준으로 정리했다. 네트워...

Original note

클라우드 운영 트러블슈팅: 성능 지표와 로그가 서로 다르게 보일 때 - 성능 지표 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 성능 장애는 숫자가 많아서 오히려 헷갈린다. CPU load, memory, I/O wait, qemu process, tapdisk 로그가 서로 다른 이야기를 할 수 있으므로, 장애 시각을 기준으로 증거를 재배열해야 한다. 성능 장애는 guest 내부 지표만 보면 절반만 본 것이다....

Original note

클라우드 운영 트러블슈팅: 성능 지표와 로그가 서로 다르게 보일 때 - 성능 지표 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 성능 장애는 숫자가 많아서 오히려 헷갈린다. CPU load, memory, I/O wait, qemu process, tapdisk 로그가 서로 다른 이야기를 할 수 있으므로, 장애 시각을 기준으로 증거를 재배열해야 한다. 성능 장애는 guest 내부 지표만 보면 절반만 본 것이다....

Original note

클라우드 운영 트러블슈팅: 스토리지 상태와 VM 상태가 다르게 보일 때 - 스토리지 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 스토리지 계층 장애는 조급하게 attach/detach를 반복할수록 상태가 더 나빠질 수 있다. 특히 VDI/VBD, snapshot chain, tapdisk가 얽힌 경우에는 어떤 계층이 아직 disk를 붙잡고 있는지부터 봐야 한다. 볼륨 장애는 포털의 attach/detach 상태...

Original note

클라우드 운영 트러블슈팅: xapi 작업이 멈췄을 때 - hypervisor 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. compute node 장애는 한 대의 서버 문제가 아니라 그 위에 올라간 VM 묶음의 서비스 장애로 번진다. 그래서 첫 판단은 hardware 교체가 아니라, 남아 있는 VM을 어디까지 안전하게 옮길 수 있는지에서 시작한다. 운영 장애 대응은 원인을 바로 단정하기보다 계층을 나눠 증...

Original note

클라우드 운영 트러블슈팅: VM stop이 끝나지 않을 때 - host 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. compute node 장애는 한 대의 서버 문제가 아니라 그 위에 올라간 VM 묶음의 서비스 장애로 번진다. 그래서 첫 판단은 hardware 교체가 아니라, 남아 있는 VM을 어디까지 안전하게 옮길 수 있는지에서 시작한다. 운영 장애 대응은 원인을 바로 단정하기보다 계층을 나눠 증...

Original note

클라우드 운영 트러블슈팅: conntrack 한계로 세션이 끊길 때 - 패킷 흐름 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. Virtual Router 계층 문제는 사용자가 보기에는 단순 접속 장애지만, 실제로는 NAT rule, conntrack, security rule, upstream route가 같이 얽힌다. 이 글은 rule이 있는 것처럼 보이는데 통신이 실패하는 유형을 기준으로 정리했다. 네트워...

Original note

클라우드 운영 트러블슈팅: vCloud Director 작업이 pending으로 남을 때 - 관리 작업 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. VMware 관리 계층의 pending 작업은 한 화면으로 결론 내리기 어렵다. vCD, vCenter, ESXi, DB job이 서로 다른 상태를 보일 수 있기 때문에 작업 흐름을 시간순으로 다시 맞춰야 한다. VMware 관리 계층에서는 vCD, vCenter, ESXi, DB j...

Original note

클라우드 운영 트러블슈팅: VM이 커널 단계에서 멈출 때 - guest OS 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 스토리지 계층 장애는 조급하게 attach/detach를 반복할수록 상태가 더 나빠질 수 있다. 특히 VDI/VBD, snapshot chain, tapdisk가 얽힌 경우에는 어떤 계층이 아직 disk를 붙잡고 있는지부터 봐야 한다. 볼륨 장애는 포털의 attach/detach 상태...

Original note

클라우드 운영 트러블슈팅: CloudStack async job이 pending으로 남을 때 - DB 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. CloudStack 운영에서 async job은 장애 원인이자 증거다. 작업이 pending으로 보일 때 실제로는 backend가 일하는 중인지, 이미 끝났는데 상태만 남은 것인지 구분하는 것이 핵심이다. async job은 오래 남아 있다고 전부 실패가 아니다. backend tas...

Original note

클라우드 운영 트러블슈팅: Virtual Router NAT 반영이 늦을 때 - 네트워크 경로 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. Virtual Router 계층 문제는 사용자가 보기에는 단순 접속 장애지만, 실제로는 NAT rule, conntrack, security rule, upstream route가 같이 얽힌다. 이 글은 rule이 있는 것처럼 보이는데 통신이 실패하는 유형을 기준으로 정리했다. 네트워...

Original note

클라우드 운영 트러블슈팅: compute node 장애를 VM 영향도로 풀어볼 때 - host 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. compute node 장애는 한 대의 서버 문제가 아니라 그 위에 올라간 VM 묶음의 서비스 장애로 번진다. 그래서 첫 판단은 hardware 교체가 아니라, 남아 있는 VM을 어디까지 안전하게 옮길 수 있는지에서 시작한다. 운영 장애 대응은 원인을 바로 단정하기보다 계층을 나눠 증...

Original note

클라우드 운영 트러블슈팅: VM stop이 끝나지 않을 때 - DB 상태 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 스토리지 계층 장애는 조급하게 attach/detach를 반복할수록 상태가 더 나빠질 수 있다. 특히 VDI/VBD, snapshot chain, tapdisk가 얽힌 경우에는 어떤 계층이 아직 disk를 붙잡고 있는지부터 봐야 한다. 볼륨 장애는 포털의 attach/detach 상태...

Original note

클라우드 운영 트러블슈팅: compute node 장애 뒤 VM 위치를 정리할 때 - 성능 지표 관점

클라우드 운영 장애를 지나고 나면 남는 것은 명령어 몇 줄보다 판단의 순서다. 같은 증상이라도 어느 계층을 먼저 의심했는지에 따라 확인하는 로그도, 조치의 위험도도 달라진다. 성능 장애는 숫자가 많아서 오히려 헷갈린다. CPU load, memory, I/O wait, qemu process, tapdisk 로그가 서로 다른 이야기를 할 수 있으므로, 장애 시각을 기준으로 증거를 재배열해야 한다. 성능 장애는 guest 내부 지표만 보면 절반만 본 것이다....

Original note