포지션 상세
우리는 각국의 Hyperscale AI Private Cloud 구축 수요에 대응하는 글로벌 비즈니스를 목표로 설립된 프라이빗 클라우드 플랫폼 기업입니다. Data 주권을 보장하는 소버린 환경에서 고성능 컴퓨팅(HPC) 및 AI 모델 학습을 위한 GPUaaS(GPU as a Service) 기반의 프라이빗 클라우드 인프라를 제공하며, 기업 및 연구기관이 AI 혁신을 가속화할 수 있도록 지원합니다.
AI 및 클라우드 인프라 시장에서 빠르게 성장하는 기회를 포착하고 글로벌 확장을 준비 중이며, 이를 함께할 플랫폼 개발 MLOps 플랫폼 개발자를 모십니다.
● 멀티테넌트 모델 서빙 — 테넌트 간 자원·네트워크·데이터 격리를 보장하면서 추론 지연과 처리량을 최적화한 모델 서빙 계층(vLLM, Triton, KServe 등)을 구축합니다.
● GPU 자원 오케스트레이션 — Kueue 기반 큐잉, 우선순위, 공정 분배로 GPU 활용률을 높이고 학습 및 추론 워크로드의 스케줄링을 설계합니다.
● GitOps 기반 배포 자동화 — ArgoCD와 Helm으로 선언적 배포, 드리프트 감지, 롤백을 표준화하여 재현 가능하고 안전한 릴리스 파이프라인을 만듭니다.
● 관측성 및 신뢰성 — 모델 성능, 데이터 드리프트, 추론 SLA를 추적하는 모니터링과 알림을 구축하고, 프로덕션 이슈의 근본 원인을 추적하고 해결합니다.
● 모델 거버넌스 — 버전 관리, 모델 및 데이터 계보, 재현성, 승인 워크플로 등 모델 생애주기 거버넌스의 모범 사례를 구현합니다.
● 보안 및 데이터 주권 — 소버린 및 온프레미스 제약 아래에서 인증·인가(Keycloak), 비밀 관리, 데이터 프라이버시 기준을 모든 MLOps 활동에 내재화합니다.
● 비용 및 효율 최적화 — GPU, 스토리지, 네트워크 비용을 가시화하고 파이프라인을 확장성과 비용 효율 관점에서 지속적으로 최적화합니다.
● 기술 리더십 — 기술 표준과 설계 리뷰를 주도하고, 데이터 과학자·인프라·제품 팀과 협업하며 동료 엔지니어를 멘토링합니다.
● 프로덕션 환경에서 Kubernetes 기반 시스템을 설계하고 운영한 깊이 있는 경험.
● 머신러닝 모델 생애주기(학습, 배포, 서빙, 모니터링, 재학습)에 대한 깊은 이해.
● Python과 같은 프로그래밍 언어에 능숙하며, PyTorch, TensorFlow 등 머신러닝 프레임워크에 대한 실무 경험.
● Docker 및 Kubernetes 등 컨테이너화 및 오케스트레이션 도구에 대한 숙련된 이해.
● CI/CD 파이프라인, 인프라 자동화(IaC), Git과 같은 버전 관리 시스템에 대한 실무 지식.
● 분산 시스템에서 발생하는 복잡한 문제를 구조적으로 진단하고 해결하는 능력.
● 프로덕션 환경에서 모델 성능을 모니터링하는 도구 및 실무 경험.
● 기술 의사결정을 주도하고 교차 기능 팀에서 효과적으로 협업하고 소통하는 능력.
AI 및 클라우드 인프라 시장에서 빠르게 성장하는 기회를 포착하고 글로벌 확장을 준비 중이며, 이를 함께할 플랫폼 개발 MLOps 플랫폼 개발자를 모십니다.
주요업무
● MLOps 플랫폼 아키텍처 설계 — 머신러닝 모델의 학습, 배포, 서빙, 재학습을 잇는 end-to-end 파이프라인과 그 위의 플랫폼 추상화를 설계하고 구현합니다.● 멀티테넌트 모델 서빙 — 테넌트 간 자원·네트워크·데이터 격리를 보장하면서 추론 지연과 처리량을 최적화한 모델 서빙 계층(vLLM, Triton, KServe 등)을 구축합니다.
● GPU 자원 오케스트레이션 — Kueue 기반 큐잉, 우선순위, 공정 분배로 GPU 활용률을 높이고 학습 및 추론 워크로드의 스케줄링을 설계합니다.
● GitOps 기반 배포 자동화 — ArgoCD와 Helm으로 선언적 배포, 드리프트 감지, 롤백을 표준화하여 재현 가능하고 안전한 릴리스 파이프라인을 만듭니다.
● 관측성 및 신뢰성 — 모델 성능, 데이터 드리프트, 추론 SLA를 추적하는 모니터링과 알림을 구축하고, 프로덕션 이슈의 근본 원인을 추적하고 해결합니다.
● 모델 거버넌스 — 버전 관리, 모델 및 데이터 계보, 재현성, 승인 워크플로 등 모델 생애주기 거버넌스의 모범 사례를 구현합니다.
● 보안 및 데이터 주권 — 소버린 및 온프레미스 제약 아래에서 인증·인가(Keycloak), 비밀 관리, 데이터 프라이버시 기준을 모든 MLOps 활동에 내재화합니다.
● 비용 및 효율 최적화 — GPU, 스토리지, 네트워크 비용을 가시화하고 파이프라인을 확장성과 비용 효율 관점에서 지속적으로 최적화합니다.
● 기술 리더십 — 기술 표준과 설계 리뷰를 주도하고, 데이터 과학자·인프라·제품 팀과 협업하며 동료 엔지니어를 멘토링합니다.
자격요건
● MLOps, DevOps 또는 플랫폼 엔지니어링 등 관련 분야에서 7년 이상의 실무 경험.● 프로덕션 환경에서 Kubernetes 기반 시스템을 설계하고 운영한 깊이 있는 경험.
● 머신러닝 모델 생애주기(학습, 배포, 서빙, 모니터링, 재학습)에 대한 깊은 이해.
● Python과 같은 프로그래밍 언어에 능숙하며, PyTorch, TensorFlow 등 머신러닝 프레임워크에 대한 실무 경험.
● Docker 및 Kubernetes 등 컨테이너화 및 오케스트레이션 도구에 대한 숙련된 이해.
● CI/CD 파이프라인, 인프라 자동화(IaC), Git과 같은 버전 관리 시스템에 대한 실무 지식.
● 분산 시스템에서 발생하는 복잡한 문제를 구조적으로 진단하고 해결하는 능력.
● 프로덕션 환경에서 모델 성능을 모니터링하는 도구 및 실무 경험.
● 기술 의사결정을 주도하고 교차 기능 팀에서 효과적으로 협업하고 소통하는 능력.





