포지션 상세

ROBROS는 멀티모달 로봇(Vision, State, Force 등) 데이터를 기반으로, 실제 작업 환경에서 안정적으로 동작하는 자율 휴머노이드 및 로봇 지능을 구현하기 위해 학습 인프라를 고도화하고 있습니다.

본 포지션은 Training Infrastructure Engineer로서, ROBROS의 학습 클러스터 설계 및 운영, 대규모 분산 학습 프레임워크와 도구 개발, 데이터 로딩·전처리·실험 자동화·CI/CD 등을 담당합니다. 이를 통해 연구자가 더 빠르게 모델을 개발하고 반복 실험할 수 있는 환경을 구축하는 것을 핵심 목표로 합니다.

주요업무

학습 클러스터 설계·구축·운영
• ROBROS의 GPU 학습 클러스터 설계, 배포, 운영 및 모니터링
• 자원(GPU/CPU/스토리지/네트워크) 효율 최적화 및 장애 대응 체계 구축
• 연구 및 학습 워크로드 특성에 맞는 클러스터 운영 표준 및 가이드라인 수립

대규모 딥러닝 학습 프레임워크/플랫폼 아키텍처 설계
• 대규모 로봇 데이터셋을 대상으로 한 확장 가능한 학습 파이프라인 설계 및 유지보수
• 연구 생산성을 높이는 공통 라이브러리(훈련 루프, 체크포인트, 로깅, 재현성 등) 개발
• 모델, 데이터, 실험의 재현성과 추적성을 강화하는 실험 관리 체계 구축

분산 학습 및 병렬화 전략 구현
• 모델 개발 사이클 단축을 위한 분산 학습(Distributed Training) 및 병렬화 전략 구현
• DDP/FSDP, 텐서/파이프라인/데이터 병렬화, 혼합 정밀도(Mixed Precision), 체크포인팅 등 적용
• 대규모 학습에서 발생하는 통신, I/O, 메모리 병목 현상을 측정·분석하고 최적화

데이터 로더 및 데이터 처리 도구 개발
• 로봇 멀티모달 데이터(영상, 센서, State, Action 등) 기반의 고성능 데이터 로더 개발
• 데이터 전처리, 샤딩(Sharding), 캐싱, 데이터 증강 파이프라인 구축을 통한 GPU 활용도(Utilization) 향상
• 데이터 품질, 스키마, 버전 관리 및 재현 가능한 데이터 실험 환경 제공

개발자 도구 및 CI/자동화 파이프라인 구축
• 연구자가 쉽게 확장하고 디버깅할 수 있는 개발자 툴링(템플릿, CLI, 리포트 기능 등) 제공
• 운영 표준(런북, 온콜, 알림, 대시보드) 정립

자격요건

• 탄탄한 소프트웨어 엔지니어링 기본기 (설계, 디버깅, 테스트, 운영)
• 컴퓨터공학, 로보틱스, 공학 등 관련 전공 학사 또는 석사 (혹은 이에 준하는 실무 경력)
• Python 및 PyTorch 기반의 실무 개발 경험
• 딥러닝 학습을 위한 HPC/GPU 클러스터 운영 또는 관리 경험

AI Training Infrastructure Engineer(전문연구요원 가능)

포지션 상세

주요업무

자격요건

기술 스택 • 툴

태그

마감일

근무지역