FPGA vs GPU: 실시간 처리에서의 선택

FPGA와 GPU의 근본적 차이

하드웨어 가속이라고 하면 GPU를 먼저 떠올리는 시대입니다. AI/ML 붐과 함께 GPU는 “빠른 처리”의 대명사가 되었습니다. 하지만 실시간 시스템의 맥락에서 GPU와 FPGA는 전혀 다른 특성을 가집니다.

GPU는 대규모 병렬 처리(SIMD — Single Instruction, Multiple Data)에 최적화된 프로세서입니다. 수천 개의 작은 코어가 동일한 연산을 대량의 데이터에 동시 적용합니다. 행렬 곱셈, 이미지 컨볼루션 등 “동일 연산의 대량 반복”에서 압도적 성능을 보입니다.

FPGA(Field-Programmable Gate Array)는 하드웨어 로직 자체를 프로그래밍할 수 있는 반도체입니다. 소프트웨어를 실행하는 것이 아니라, 디지털 회로를 직접 구성합니다. 따라서 처리 파이프라인이 물리적 회로로 구현되어 클럭 사이클 단위의 결정론적 동작을 보장합니다.

비교 분석

항목	FPGA	GPU
지연 시간	나노초~마이크로초	마이크로초~밀리초
결정론성	완전 결정론적	비결정적
전력 효율	높음 (5~25W)	낮음 (150~350W)
유연성	재프로그래밍 가능	소프트웨어 업데이트
처리량	중간 (파이프라인 깊이에 비례)	매우 높음 (배치 처리 시)
개발 비용	높음 (HDL, HLS)	낮음 (CUDA, OpenCL)
최적 워크로드	스트림 처리, 실시간 필터링	배치 병렬 처리, AI 추론

지연 시간: 나노초 vs 마이크로초

GPU 처리의 지연 구조를 분석하면:

호스트→GPU 데이터 전송: PCIe 버스를 통한 DMA 전송 (수 마이크로초)
커널 실행: GPU 코어에서의 실제 연산 (마이크로초~밀리초)
GPU→호스트 결과 반환: PCIe 역방향 전송 (수 마이크로초)

GPU는 대량 배치 처리에서 **처리량(throughput)**이 뛰어나지만, 단일 입력에 대한 **지연(latency)**은 PCIe 왕복 시간만으로도 수십 마이크로초입니다.

FPGA는 NIC와 동일한 보드에 배치되거나 PCIe에 직접 연결되어, 데이터가 입력되는 즉시 하드웨어 파이프라인을 통과합니다. 파이프라인의 각 스테이지가 클럭 사이클(수 나노초) 단위로 동작하므로, 전체 처리가 수백 나노초 이내에 완료됩니다.

결정론성: 보장 vs 통계

이것이 가장 핵심적인 차이입니다.

GPU는 내부적으로 워프(warp) 스케줄링, 메모리 뱅크 충돌, 캐시 미스 등 비결정적 요소가 다수 존재합니다. 동일한 입력을 동일한 커널로 처리해도, 실행 시간이 매번 미세하게 달라집니다. 대부분의 AI/ML 워크로드에서 이 차이는 무의미하지만, 실시간 시스템에서는 치명적입니다.

FPGA는 디지털 회로가 클럭에 동기화되어 동작합니다. 동일한 입력은 정확히 동일한 클럭 사이클 수를 거쳐 처리됩니다. 어떤 조건에서도, 어떤 부하에서도 처리 시간이 변하지 않습니다. 이것이 하드웨어 수준의 결정론성입니다.

전력 효율: 에지 디바이스의 현실

드론, 차량 탑재 시스템, 함정 전자전 장비 등 에지(edge) 환경에서 전력은 핵심 제약 조건입니다. GPU의 150~350W 전력 소비는 배터리 구동 시스템에서 현실적이지 않습니다.

FPGA는 5~25W 수준에서 동작하며, 필요한 로직만 활성화하므로 유휴 전력이 극히 낮습니다. 이는 소형 드론이나 현장 배치 장비에서 결정적인 장점입니다.

Akritai의 선택

Akritai는 솔루션의 특성에 따라 FPGA와 소프트웨어 기반 Kernel Bypass를 선택적으로 적용합니다:

FPGA 채택 솔루션

DFRM (전자전 대응): 위협 신호 탐지부터 대응 파형 생성까지 전체 파이프라인이 FPGA에서 실행됩니다. 나노초 단위 결정론적 응답이 필수이며, MIL-SPEC 환경에서의 내구성도 요구됩니다.
드론 Anti-Jamming: RF 스펙트럼의 실시간 분석과 적응형 필터링이 FPGA의 병렬 하드웨어 파이프라인에서 처리됩니다. 저전력·경량 모듈이 소형 드론에 탑재됩니다.
스마트팩토리 PID 태킹장치: 결정론적 제어 주기가 하드웨어 타이머와 FPGA 전처리로 보장됩니다.

소프트웨어(Kernel Bypass) 채택 솔루션

HFT (고빈도 매매): DPDK/AF_XDP 기반 소프트웨어 솔루션으로 commodity x86 서버에서 마이크로초 이하 지연을 달성합니다. 빈번한 전략 변경에 소프트웨어의 유연성이 필수적입니다.
AdTech (광고 기술): 초당 수백만 입찰 요청을 처리하는 데 높은 처리량과 빠른 배포 주기가 중요합니다. Kernel Bypass로 커널 오버헤드를 제거하면서 소프트웨어 업데이트만으로 새로운 입찰 로직을 적용합니다.

왜 “GPU가 아닌가”

Akritai가 해결하는 문제는 “대량 배치 처리”가 아닌 “단일 입력의 결정론적 초저지연 처리”입니다. 이 영역에서 GPU의 장점(높은 배치 처리량)은 발휘되지 않고, 단점(높은 지연, 비결정론성, 높은 전력)만 남습니다.

물론 AI 추론이 파이프라인에 포함되는 경우(예: 위협 패턴 분류)에는 GPU 또는 NPU를 보조 프로세서로 활용할 수 있습니다. 하지만 전처리 경로 자체는 결정론적이어야 하므로, 핵심 파이프라인은 항상 FPGA 또는 Kernel Bypass 소프트웨어로 구현됩니다.

이 글은 기술 블로그 시리즈의 세 번째 글입니다. 시리즈 전체: O(1) 결정론적 전처리 → Kernel Bypass 네트워킹 → FPGA vs GPU (본 글)