[직무 소개]
RDMA 소프트웨어 팀은 대규모 분산 AI 시스템에서 초고속·고효율 통신을 실현하는 핵심 장치인 'RDMA NIC'을 구축하고 있습니다. 본 팀은 Linux 커널 드라이버, 유저 스페이스 라이브러리, SDK 및 개발자 툴링을 포함한 네트워크 카드(NIC)의 소프트웨어 스택 전반을 오너십을 가지고 개발합니다. 대규모 AI 워크로드를 위한 차세대 RDMA 기능을 설계 및 구현하고 성능과 신뢰성을 극한으로 끌어올리는 동시에 , 하드웨어 아키텍처 팀과 긴밀히 협업하여 '하드웨어-소프트웨어 공동 설계(Co-design)'를 주도할 엔지니어를 모십니다.
주요업무
• MangoBoost의 RoCEv2 NIC을 위한 Linux 커널 드라이버 및 유저 스페이스 라이브러리 설계 및 유지보수
• 차세대 고급 RDMA 기능 구현 및 이를 지원하는 SDK 개발
• 프로덕션 환경에서 RNIC을 쉽게 배포, 설정 및 검증할 수 있는 CLI 및 자동화 툴링 구축
• HW 로직 설계 및 검증 팀과 직접 협업하여 HW/SW 인터페이스 공동 설계
• 신규 기능 브링업(Bring-up), HW/SW 경계 이슈의 근본 원인 분석(Root-causing) 수행
• 대규모 멀티 노드 AI 워크로드 환경에서 데이터 처리량(Throughput), 지연 시간(Latency) 및 신뢰성 최적화
자격요건
• 컴퓨터공학, 전기공학, 전자공학 또는 관련 분야 학사/석사/박사 학위 혹은 이에 준하는 실무 경험
• 시스템 프로그래밍 분야 2년 이상의 학술 또는 업계 경력
• 탄탄한 C 언어 역량 및 Linux 시스템 개발 스킬(커널, 디바이스 드라이버 또는 기타 로우레벨 시스템 소프트웨어)
• 유저 스페이스, 커널, 하드웨어 간의 상호작용 및 복잡한 시스템 이슈를 추적할 수 있는 우수한 디버깅 및 문제 해결 능력
• 현대 데이터센터 아키텍처, 토폴로지 및 고속 하드웨어 장치에 대한 깊은 이해