포지션 상세
We are looking for the best
LLM Engineer (Ops)는 대규모 언어 모델(LLM)을 최적의 상태로 운영하고, 모델 및 서비스를 안전하게 관리합니다. 빠르게 변화하는 환경 속에서 LLM의 확장성과 안정성을 보장하고, 모델 및 서비스 전반의 안전성을 지속적으로 개선함으로써 모빌리티 혁신을 가속화하는 데 핵심적인 역할을 수행하게 됩니다.
ㄴ 버전 관리 및 모델 통합, 모델 검증 등 모델 라이프사이클을 체계적으로 운영
ㄴ 빌드/배포 프로세스 자동화를 통해 반복 작업을 최소화하고 안정적인 운영 환경 확보
• 운영 중인 모델 성능 및 안정성 모니터링 시스템 구축
ㄴ 서비스 지표(Log, Metric) 추적을 통해 모델 및 서비스의 이상 징후를 사전에 감지하고 해결
ㄴ 알림 시스템 구현을 통해 문제 발생 시 신속하게 대응할 수 있는 체계 수립
• 클라우드 및 온프레미스 환경에서 대규모 LLM 서비스 운영
ㄴ 고성능 인프라 설계 및 최적화를 통해 빠르고 안정적인 모델 서빙 제공
ㄴ 다양한 환경에서 확장 가능한 기술 스택을 활용하여 효율적인 리소스 관리
• MLOps, DevOps 또는 유관 분야에서 5년 이상 경력
ㄴ 대규모 ML 모델 배포·관리에 집중한 경험
• Docker 등의 컨테이너 기술 및 Kubernetes 활용
ㄴ 대규모 고가용 시스템 구축 또는 운영 경험
• 딥러닝/머신러닝에 대한 전반적인 이해
ㄴ 데이터 전처리, 모델 학습, 서빙 프로세스에 대한 협업 능력
• Workflow Orchestration 운영 경험
ㄴ Airflow, KubeFlow, MLFlow 등 사용 경험
• 뛰어난 문제 해결 능력 및 커뮤니케이션 스킬
ㄴ 여러 팀/파트너와 협력하여 복잡한 문제를 해결할 수 있는 역량
LLM Engineer (Ops)는 대규모 언어 모델(LLM)을 최적의 상태로 운영하고, 모델 및 서비스를 안전하게 관리합니다. 빠르게 변화하는 환경 속에서 LLM의 확장성과 안정성을 보장하고, 모델 및 서비스 전반의 안전성을 지속적으로 개선함으로써 모빌리티 혁신을 가속화하는 데 핵심적인 역할을 수행하게 됩니다.
주요업무
• LLM 학습 및 배포 Pipeline 전반의 효율적 개선ㄴ 버전 관리 및 모델 통합, 모델 검증 등 모델 라이프사이클을 체계적으로 운영
ㄴ 빌드/배포 프로세스 자동화를 통해 반복 작업을 최소화하고 안정적인 운영 환경 확보
• 운영 중인 모델 성능 및 안정성 모니터링 시스템 구축
ㄴ 서비스 지표(Log, Metric) 추적을 통해 모델 및 서비스의 이상 징후를 사전에 감지하고 해결
ㄴ 알림 시스템 구현을 통해 문제 발생 시 신속하게 대응할 수 있는 체계 수립
• 클라우드 및 온프레미스 환경에서 대규모 LLM 서비스 운영
ㄴ 고성능 인프라 설계 및 최적화를 통해 빠르고 안정적인 모델 서빙 제공
ㄴ 다양한 환경에서 확장 가능한 기술 스택을 활용하여 효율적인 리소스 관리
자격요건
• 소프트웨어·데이터 엔지니어관련 업무 경력 5년 이상• MLOps, DevOps 또는 유관 분야에서 5년 이상 경력
ㄴ 대규모 ML 모델 배포·관리에 집중한 경험
• Docker 등의 컨테이너 기술 및 Kubernetes 활용
ㄴ 대규모 고가용 시스템 구축 또는 운영 경험
• 딥러닝/머신러닝에 대한 전반적인 이해
ㄴ 데이터 전처리, 모델 학습, 서빙 프로세스에 대한 협업 능력
• Workflow Orchestration 운영 경험
ㄴ Airflow, KubeFlow, MLFlow 등 사용 경험
• 뛰어난 문제 해결 능력 및 커뮤니케이션 스킬
ㄴ 여러 팀/파트너와 협력하여 복잡한 문제를 해결할 수 있는 역량