제틱에이아이-ML Software Engineer
제틱에이아이-ML Software Engineer
제틱에이아이-ML Software Engineer
제틱에이아이-ML Software Engineer
제틱에이아이-ML Software Engineer
1/5
제틱에이아이서울 강남구경력 3-8년

ML Software Engineer

포지션 상세

ZETIC.ai는 AI를 GPU Server 없이, 하드웨어 자체에서 실행 가능하게 하는 개발 툴을 제공합니다.
Qualcomm, Amazon, Microsoft 등 대형 테크 기업 출신 팀원들이 Seoul & Silicon Valley에서 활발히 활동 중이며, '25년 10월 기준 딥테크팁스 (R&D) 선정, 시드 라운드 10억 이상 유치 및 글로벌 반도체 1위 기업 및 미국 빅테크 기업과 협력 중에 있습니다.

빠르게 변화하는 글로벌 AI 시장의 최전선에서, 최신 온디바이스 AI 기술 트렌드를 조사하고 직접 모바일 환경에서 구동해보며 제품 고도화에 기여할 '모바일 앱 개발 인턴'을 모집합니다.

단순 반복 업무가 아닌, 다양한 AI 추론 엔진과 프레임워크를 직접 다뤄보며 모바일 AI 분야의 전문성을 쌓고 싶은 개발자분의 지원을 기다립니다.

주요업무

Job Description
ML 소프트웨어 엔지니어(온디바이스 AI 모델 최적화)를 모시고 있습니다. 해당 포지션은 LLM과 멀티모달 모델(ASR, TTS, 비전 인코더 등)을 모바일 NPU와 같은 엣지 디바이스에 포팅 및 최적화하는 엔드 투 엔드(End-to-End) 업무를 담당하게 됩니다.

The Role
성능 로드맵(지연 시간, 메모리, 전력/발열)을 책임지고 주도하며, 모델 측면의 최적화 전략을 수립합니다. 또한, 런타임/SDK 및 앱 엔지니어들과 긴밀히 협업하여 실제 서비스 배포를 완수하는 역할을 수행합니다.

Responsibilities
• NPU/GPU/CPU 경로에서 LLM 및 멀티모달 워크로드(ASR, TTS, 비전 인코더 등)의 모델 측면 최적화 및 배포를 주도합니다.
• 지연 시간(Latency), 메모리, 정확도, 배터리 소모 간의 트레이드오프(trade-offs)를 분석하고 성능 목표를 관리합니다.
• 다음과 같은 모델 최적화 기술을 추진합니다: 양자화(PTQ/QAT), 프루닝(Pruning), 지식 증류(Distillation), 오퍼레이터 퓨전(Operator fusion), KV-캐시 전략, 어텐션 최적화, 스펙큘레이티브 디코딩(Speculative decoding, 해당되는 경우) 등
• 평가 및 프로파일링 파이프라인을 구축하고 유지 관리합니다: 온디바이스 벤치마크, 회귀 추적(Regression tracking), 정확성 검증 및 성능 대시보드 관리
• 런타임/SDK 엔지니어와 협업하여 컴파일러 및 런타임 제약 사항(연산 지원 범위, 정밀도, 레이아웃, 스케줄링 등)을 해결합니다.
• 제품 및 엔지니어링 팀과 협력하여 "출시 가능(ready-to-ship)" 기준을 정의하고, 다양한 디바이스 변체(variants)에서 안정적인 프로덕션 배포를 보장합니다.

자격요건

• 3년 이상(또는 이에 준하는) ML 시스템 구축 및 상용화 경험과 함께, 실제 서비스 배포를 위한 모델 최적화에 대한 실무 경험을 풍부하게 보유하신 분
• 딥러닝 기초 원리 및 성능 병목 현상(연산, 메모리 대역폭, 캐시 동작 등)에 대한 깊은 이해가 있으신 분
• 다음 중 최소 하나 이상의 분야에서 실무 경험이 있으신 분:
1) LLM 추론 최적화 (양자화, 어텐션/KV 캐시, 디코드 타임 성능 등)
2) ASR/TTS 배포 (스트리밍, 지연 시간 제약, 오디오 전/후처리 등)
3) 비전 인코더 최적화 (이미지 전처리, 특징 추출 성능 등)
• Python 및 C/C++(또는 이에 상응하는 로우레벨 성능 중심 언어)에 대한 탄탄한 소프트웨어 엔지니어링 기술을 보유하신 분
• 혼합 정밀도(Mixed precision) 및 양자화된 추론 과정에서의 수치적 문제를 디버깅하고 정확성을 검증해 본 경험이 있으신 분
• 모호한 제약 조건 속에서도 유연하게 업무를 수행하며, "더 빨라야 한다"는 추상적인 요구를 측정 가능한 엔지니어링 작업으로 전환할 수 있는 역량을 갖추신 분

Required Skillset
• 엣지/온디바이스 ML 최적화 마인드셋: 지연 시간(Latency), 메모리, 전력, 발열 등을 종합적으로 고려한 최적화 사고방식
• 양자화(Quantization) 및 혼합 정밀도(Mixed-precision) 추론: PTQ/QAT 기술 및 int8/fp16 전략 활용 능력
• 성능 프로파일링 및 디버깅: 수치적(Numerical) 정확도 분석 및 시스템 레벨의 디버깅 역량
• 강력한 엔지니어링 오너십: 기획 구현 벤치마킹 최종 출시(Shipping)에 이르는 전 과정을 주도적으로 이끄는 능력

Must Have
• 실제 기기에서의 최적화 역량: GPU 서버뿐만 아니라, 실제 디바이스(Real devices)에서 모델의 속도를 실질적으로 개선하거나 크기를 경량화한 검증된 경험
• End-to-end 최적화 주도: 명확한 지표(Metrics)와 결과물(Deliverables)을 바탕으로 최적화 작업의 전 과정을 주도할 수 있는 능력
• 강력한 디버깅 기술: 수치적 정확도(Numerics) 및 성능(Performance) 측면에서의 뛰어난 디버깅 역량
• 이기종 실행(Heterogeneous execution)에 대한 높은 이해도: NPU/GPU/CPU 간의 폴백(Fallback) 처리를 포함한 이기종 환경에서의 실행에 능숙하신 분

기술 스택 • 툴

태그

마감일

상시채용

근무지역

서울 강남구 역삼로 180
본 채용정보는 원티드랩의 동의없이 무단전재, 재배포, 재가공할 수 없으며, 구직활동 이외의 용도로 사용할 수 없습니다.
본 채용 정보는 에서 제공한 자료를 바탕으로 원티드랩에서 표현을 수정하고 이의 배열 및 구성을 편집하여 완성한 원티드랩의 저작자산이자 영업자산입니다. 본 정보 및 데이터베이스의 일부 내지는 전부에 대하여 원티드랩의 동의 없이 무단전재 또는 재배포, 재가공 및 크롤링할 수 없으며, 게재된 채용기업의 정보는 구직자의 구직활동 이외의 용도로 사용될 수 없습니다. 원티드랩은 에서 게재한 자료에 대한 오류나 그 밖에 원티드랩이 가공하지 않은 정보의 내용상 문제에 대하여 어떠한 보장도 하지 않으며, 사용자가 이를 신뢰하여 취한 조치에 대해 책임을 지지 않습니다.
<저작권자 (주)원티드랩. 무단전재-재배포금지>