Microsoft MVP성태의 닷넷 이야기
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일

C# - Thread.Suspend 호출 시 응용 프로그램 hang 현상

닷넷에서, 다른 스레드의 콜 스택을 얻는 여러 가지 방법이 있지만,

.NET에서의 스레드 콜 스택 덤프
; https://www.sysnet.pe.kr/2/0/802

"Stack Walking" in the .NET Runtime
; https://mattwarren.org/2019/01/21/Stackwalking-in-the-.NET-Runtime/

그중에서 (제 경험으로는) 가장 안정적인 것은 System.Diagnostics.StackTrace를 이용하는 방법이었습니다. 그런데, 이것을 사용하기 위해서는 대상 스레드를 반드시 Suspend 시켜야 합니다. 그리고 Suspend 메서드의 경우,

Thread.Suspend Method
; https://docs.microsoft.com/en-us/dotnet/api/system.threading.thread.suspend

주의 사항으로 다음과 같은 문구가 있습니다.

Do not use the Suspend and Resume methods to synchronize the activities of threads. You have no way of knowing what code a thread is executing when you suspend it. If you suspend a thread while it holds locks during a security permission evaluation, other threads in the AppDomain might be blocked. If you suspend a thread while it is executing a class constructor, other threads in the AppDomain that attempt to use that class are blocked. Deadlocks can occur very easily.


hang 현상은 다음과 같은 코드로 쉽게 재현이 가능합니다.

using System;
using System.Collections.Generic;
using System.Threading;

namespace ConsoleApp1
{
    class Program
    {
        List<Thread> _threads = new List<Thread>();

        static void Main(string[] args)
        {
            Program pg = new Program();
            pg.Start();
            Console.ReadLine();
        }

        int _count = 0;
        int _gcCount = 0;

        private void Start()
        {
            for (int i = 0; i < 4; i++)
            {
                Thread t = new Thread(threadFunc);
                _threads.Add(t);
                t.IsBackground = true;
                t.Name = i.ToString();
                t.Start();
            }

            Thread.Sleep(5000);
            Random rd = new Random(Environment.TickCount);

            while (true)
            {
                _count++;
                int idx = rd.Next(0, _threads.Count - 1);
                Thread t = _threads[idx];

                {
                    GetCallStack(t);
                }

                _gcCount = GC.CollectionCount(2);

                if (_count % 100 == 0)
                {
                    Console.WriteLine(_count + ": " + _gcCount);
                }
            }
        }

        private static string GetCallStack(Thread t)
        {
            System.Diagnostics.StackTrace trace = null;
            t.Suspend();
            try
            {
                trace = new System.Diagnostics.StackTrace(t, false);
                return trace.ToString();
            }
            catch
            {
            }
            finally
            {
                try
                {
                    t.Resume();
                }
                catch { }
            }

            return "";
        }

        private static void threadFunc()
        {
            List<byte[]> _bufs = new List<byte[]>();

            while (true)
            {
                byte[] buf1 = new byte[4096 * 512];
                lock (_bufs)
                {
                    _bufs.Add(buf1);

                    if (_bufs.Count >= 2)
                    {
                        _bufs.Clear();
                    }
                }

                Thread.Sleep(10);
            }
        }
    }
}

/*

app.config

<?xml version="1.0" encoding="utf-8" ?>
<configuration>
    <startup> 
        <supportedRuntime version="v4.0" sku=".NETFramework,Version=v4.7.1" />
    </startup>

    <runtime>
        <gcServer enabled="true"/>
    </runtime>
</configuration>

*/

실행해 보면, 무작위 시점에서 응용 프로그램이 멈추는 것을 확인할 수 있습니다.

이유는 간단합니다. 스레드 하나가 new로 관리 힙에 객체를 생성하다가 어느 순간 GC가 필요하다고 판단될 때가 있습니다. 하지만, GC를 수행하는 스레드는 GC 작업을 수행해도 안전한지에 대해 다른 스레드들의 상태를 확인합니다. 각각의 스레드는 GC 작업을 해도 괜찮은지에 대한 상태를 Preemptive와 Cooperative로 나눠 구분하는데, 전자의 경우가 안전한 것이고 후자의 상태에 있는 스레드가 있다면 GC 스레드는 GC 작업을 수행하지 않고 대상 스레드가 Cooperative에서 Preemptive 상태로 바뀔 때까지 대기하게 됩니다.

다시 정리해 보면, A 스레드가 GC를 수행해야 한다고 판단했고 다른 스레드의 상태를 체크하는 코드를 수행 중입니다. 그런데 바로 그 시점에 B 스레드가 A 스레드를 Suspend 시키고 A 스레드의 호출 스택을 가져오려고 합니다. 여기서 문제는, 호출 스택을 가져오려는 그 동작조차도 "new"로 인한 관리 힙을 사용하려고 시도하기 때문에 관리 힙이 GC를 위한 준비 상태이므로 GC 작업이 끝날 때까지 대기하게 됩니다. 결국 B 스레드는 A 스레드를 Resume하지 못하고 대기하므로 이 시점부터 응용 프로그램의 모든 스레드에서 "new"를 호출하기만 하면 대기 상태에 빠지게 됩니다. 한 마디로, 응용 프로그램 레벨에서 hang 상태에 빠지는 것입니다.

(첨부 파일은 이 글의 예제 코드를 포함합니다.)




이 사례에 비춰서 "If you suspend a thread while it holds locks during a security permission evaluation" 구문도 유추할 수 있습니다. 즉, 보안 권한에 대한 평가를 위해 내부적으로 CLR은 lock을 획득한다는 것이고, 그 상태의 스레드를 Suspend 시킨 측의 스레드가 Resume을 호출하기 전 역시 보안 권한에 대한 평가를 하는 코드를 호출하게 된다면... 으로 해석할 수 있습니다.




(2020-10-09 업데이트) 이런 문제를 방지하려면 GC 수행이 있을 것이라는 감지를 하면 될 텐데, 이게 또 쉽지 않습니다. ^^; 일례로 다음의 글에 보면,

Thread.Suspend Method
; https://mattwarren.org/2016/08/08/GC-Pauses-and-Safe-Points/

ETW를 이용해 GC의 실행 예측을 할 수 있지만,
  1. GCSuspendEE_V1
  2. GCSuspendEEEnd_V1 <- suspension is done
  3. GCStart_V1
  4. GCEnd_V1 <- actual GC is done
  5. GCRestartEEBegin_V1
  6. GCRestartEEEnd_V1 <- resumption is done.
아쉽게도 예전에 설명했듯이 ETW는 실시간이 아니므로,

ETW(Event Tracing for Windows)를 이용한 닷넷 프로그램의 내부 이벤트 활용
; https://www.sysnet.pe.kr/2/0/12244

C# - ETW 관련 Win32 API 사용 예제 코드 (4) CLR ETW Consumer
; https://www.sysnet.pe.kr/2/0/12300

스레드 제어 시 사용할 수 없습니다. 또 다른 방법으로, CLR Profiler 관련한 GC 이벤트를 받는 것인데 이것은 실시간은 만족하지만 이로 인한 부하가 심해져,

windbg 분석 사례 - 닷넷 프로파일러의 GC 콜백 부하
; https://www.sysnet.pe.kr/2/0/10897

역시 현실적인 수준에서 사용할 수 없습니다.
(혹시 좋은 방법이 있으신 분은 덧글 부탁드립니다. ^^)




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]


donaricano-btn



[최초 등록일: ]
[최종 수정일: 4/28/2021 ]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 쓴 사람
 




[1]  2  3  4  5  6  7  8  9  10  11  12  13  14  15  ...
NoWriterDateCnt.TitleFile(s)
12650정성태5/17/202119기타: 82. OpenTabletDriver의 버튼에 더블 클릭을 매핑 및 게임에서의 지원 방법
12649정성태5/16/202197.NET Framework: 1059. 세대 별 GC(Garbage Collection) 방식에서 Card table의 사용 의미
12648정성태5/16/202136[예약]파일 다운로드1
12647정성태5/15/202165.NET Framework: 1058. C# - C++과의 연동을 위한 구조체의 fixed 배열 필드 사용파일 다운로드1
12646정성태5/15/202132[예약]파일 다운로드1
12645정성태5/15/202180[예약]파일 다운로드1
12644정성태5/14/202136오류 유형: 719. 윈도우 - 제어판의 "프로그램 및 기능" / "Windows 기능 켜기/끄기" 오류 0x800736B3
12643정성태5/14/202144오류 유형: 718. 서버 유형의 COM+ 사용 시 0x80080005(Server execution failed) 오류 발생
12642정성태5/14/202144오류 유형: 717. The 'Microsoft.ACE.OLEDB.12.0' provider is not registered on the local machine.
12641정성태5/18/202188디버깅 기술: 179. 윈도우 용 .NET Core 3 이상에서 Windbg의 sos 사용법
12640정성태5/13/202162오류 유형: 716. RDP 연결 - Because of a protocol error (code: 0x112f), the remote session will be disconnected.
12639정성태5/12/202135오류 유형: 715. Arduino: Open Serial Monitor - The module '...\detection.node' was compiled against a different Node.js version using NODE_MODULE_VERSION
12638정성태5/12/202179사물인터넷: 63. NodeMCU v1 ESP8266 - 펌웨어 내 파일 시스템(SPIFFS, LittleFS) 및 EEPROM 활용
12637정성태5/10/202169사물인터넷: 62. NodeMCU v1 ESP8266 보드의 A0 핀에 다중 아날로그 센서 연결 [1]
12636정성태5/10/202172사물인터넷: 61. NodeMCU v1 ESP8266 보드의 A0 핀 사용법 - FSR-402 아날로그 압력 센서 연동파일 다운로드1
12635정성태5/9/202182기타: 81. OpenTabletDriver를 (관리자 권한으로 실행하지 않고도) 관리자 권한의 프로그램에서 동작하게 만드는 방법
12634정성태5/9/202195개발 환경 구성: 572. .NET에서의 신뢰도 등급 조정 - 외부 Manifest 파일을 두는 방법파일 다운로드1
12633정성태5/7/2021121개발 환경 구성: 571. UAC - 관리자 권한 없이 UIPI 제약을 없애는 방법
12632정성태5/8/2021141기타: 80. (WACOM도 지원하는) Tablet 공통 디바이스 드라이버 - OpenTabletDriver
12631정성태5/7/2021143사물인터넷: 60. ThingSpeak 사물인터넷 플랫폼에 ESP8266 NodeMCU v1 + 조도 센서 장비 연동파일 다운로드1
12630정성태5/12/2021124사물인터넷: 59. NodeMCU v1 ESP8266 보드의 A0 핀 사용법 - CdS Cell(GL3526) 조도 센서 연동파일 다운로드1
12629정성태5/5/2021202.NET Framework: 1057. C# - CoAP 서버 및 클라이언트 제작 (UDP 소켓 통신)파일 다운로드1
12628정성태5/4/202180Linux: 39. Eclipse 원격 디버깅 - Cannot run program "gdb": Launching failed
12627정성태5/4/202178Linux: 38. 라즈베리 파이 제로 용 프로그램 개발을 위한 Eclipse C/C++ 윈도우 환경 설정
12626정성태5/14/2021103.NET Framework: 1056. C# - Thread.Suspend 호출 시 응용 프로그램 hang 현상 (2)파일 다운로드1
[1]  2  3  4  5  6  7  8  9  10  11  12  13  14  15  ...