포지션 상세
ZETIC은 End-to-End 온디바이스 AI 배포 및 벤치마킹 플랫폼을 구축합니다. 우리는 기업들이 고가의 클라우드 GPU 인프라에 의존하지 않고, 기존의 AI 모델을 소비자 기기에서 효율적으로 실행할 수 있도록 돕습니다. 우리는 이종 모바일 가속기(NPU/GPU/CPU) 전용 하드웨어 인식 최적화 및 배포를 전문으로 하며, 빠른 반복, 명확한 성능 결정 및 규모에 맞는 제어된 프로덕션 롤아웃을 지원합니다. 우리의 미션은 이미 모델을 보유한 모든 팀이 고성능 온디바이스 AI를 실무에 적용하고 즉시 배포할 수 있도록 만드는 것입니다.
우리는 온디바이스 AI 모델 최적화 분야의 ML 소프트웨어 엔지니어를 찾고 있습니다. 귀하는 LLM 및 멀티모달 모델(ASR, TTS, Vision Encoder 등)을 엣지 기기, 특히 모바일 NPU에 포팅하고 최적화하는 엔드 투 엔드 노력을 주도하게 됩니다.
The Role
귀하는 성능 로드맵(지연 시간, 메모리, 전력/발열)을 책임지게 됩니다. 모델 측 최적화 전략을 주도하고, 런타임/SDK 및 앱 엔지니어와 긴밀히 협력하여 실제 배포를 위한 모델을 구현합니다.
Responsibilities
• NPU/GPU/CPU 경로에서 LLM + 멀티모달 워크로드(ASR/TTS/Vision encoder 등)의 모델 측 최적화 및 배포 주도
• 지연 시간 / 메모리 / 정확도 / 배터리 간의 성능 로드맵 및 트레이드오프(Trade-offs) 관리
• 모델 최적화 기술 적용:
- 양자화(PTQ/QAT), 프루닝(Pruning), 증류(Distillation), 연산자 융합(Operator Fusion), KV-캐시 전략, 어텐션 최적화, 투기적 디코딩(Speculative Decoding) 등
• 온디바이스 벤치마킹, 회귀 테스트, 정확도 체크 및 성능 대시보드를 위한 온디바이스 평가 및 프로파일링 파이프라인 구축 및 유지 관리
• 컴파일러/런타임 제약 사항(연산자 적용 범위, 정밀도, 레이아웃, 스케줄링)을 해결하기 위해 런타임/SDK 엔지니어와 협업
• 제품/엔지니어링 팀과 협력하여 "배포 가능(Ready-to-ship)" 기준을 정의하고 기기별로 안정적인 프로덕션 배포 보장
• 딥러닝 기초 및 성능 병목 현상(연산량, 메모리 대역폭, 캐시 동작)에 대한 깊은 이해
• 다음 중 하나 이상의 실무 경험:
- LLM 추론 최적화 (양자화, 어텐션/KV 캐시, 디코딩 시간 성능)
- ASR/TTS 배포 (스트리밍, 지연 시간 제약, 오디오 전/후처리)
- Vision Encoder 최적화 (이미지 전처리, 특징 추출 성능)
Technical Stack and Detailed Requirements
• 필요 기술셋 (Required Skillset): 엣지/온디바이스 ML 최적화 마인드셋, 양자화 및 혼합 정밀도 추론, 성능 프로파일링 및 디버깅, 강력한 엔지니어링 오너십
• 우대 기술 (Preferred Skills): LLM 특화 최적화, 오디오 파이프라인 최적화, 트랜스포머/디퓨전 모델 구조 이해, 크로스 펑셔널 협업 능력
• 필요 도구 (Required Toolset): Python, C/C++, Git + CI 워크플로우, 벤치마킹 및 프로파일링 도구
• 필수 요건 (Must Have): 모델을 작고 빠르게 만드는 능력, 엔드 투 엔드 최적화 주도 능력, 강력한 디버깅 기술, 이종 컴퓨팅 환경(NPU/GPU/CPU 폴백)에 대한 적응력
• Python + C/C++ (또는 동등한 수준의 로우 레벨 언어) 기반의 탄탄한 소프트웨어 엔지니어링 기술
• 다양한 기기에서 수치 문제(Numerical issues)를 디버깅하고 정확성을 보장해 본 경험
• 모호한 제약 조건 속에서 업무를 수행하고 "더 빨라야 한다"는 요구를 측정 가능한 엔지니어링 작업으로 전환하는 능력
주요업무
Job Description우리는 온디바이스 AI 모델 최적화 분야의 ML 소프트웨어 엔지니어를 찾고 있습니다. 귀하는 LLM 및 멀티모달 모델(ASR, TTS, Vision Encoder 등)을 엣지 기기, 특히 모바일 NPU에 포팅하고 최적화하는 엔드 투 엔드 노력을 주도하게 됩니다.
The Role
귀하는 성능 로드맵(지연 시간, 메모리, 전력/발열)을 책임지게 됩니다. 모델 측 최적화 전략을 주도하고, 런타임/SDK 및 앱 엔지니어와 긴밀히 협력하여 실제 배포를 위한 모델을 구현합니다.
Responsibilities
• NPU/GPU/CPU 경로에서 LLM + 멀티모달 워크로드(ASR/TTS/Vision encoder 등)의 모델 측 최적화 및 배포 주도
• 지연 시간 / 메모리 / 정확도 / 배터리 간의 성능 로드맵 및 트레이드오프(Trade-offs) 관리
• 모델 최적화 기술 적용:
- 양자화(PTQ/QAT), 프루닝(Pruning), 증류(Distillation), 연산자 융합(Operator Fusion), KV-캐시 전략, 어텐션 최적화, 투기적 디코딩(Speculative Decoding) 등
• 온디바이스 벤치마킹, 회귀 테스트, 정확도 체크 및 성능 대시보드를 위한 온디바이스 평가 및 프로파일링 파이프라인 구축 및 유지 관리
• 컴파일러/런타임 제약 사항(연산자 적용 범위, 정밀도, 레이아웃, 스케줄링)을 해결하기 위해 런타임/SDK 엔지니어와 협업
• 제품/엔지니어링 팀과 협력하여 "배포 가능(Ready-to-ship)" 기준을 정의하고 기기별로 안정적인 프로덕션 배포 보장
자격요건
• 실제 배포를 위한 모델 최적화 경험을 포함하여, ML 시스템 구축 및 배포 분야에서 3년 이상(또는 이에 준하는)의 경력• 딥러닝 기초 및 성능 병목 현상(연산량, 메모리 대역폭, 캐시 동작)에 대한 깊은 이해
• 다음 중 하나 이상의 실무 경험:
- LLM 추론 최적화 (양자화, 어텐션/KV 캐시, 디코딩 시간 성능)
- ASR/TTS 배포 (스트리밍, 지연 시간 제약, 오디오 전/후처리)
- Vision Encoder 최적화 (이미지 전처리, 특징 추출 성능)
Technical Stack and Detailed Requirements
• 필요 기술셋 (Required Skillset): 엣지/온디바이스 ML 최적화 마인드셋, 양자화 및 혼합 정밀도 추론, 성능 프로파일링 및 디버깅, 강력한 엔지니어링 오너십
• 우대 기술 (Preferred Skills): LLM 특화 최적화, 오디오 파이프라인 최적화, 트랜스포머/디퓨전 모델 구조 이해, 크로스 펑셔널 협업 능력
• 필요 도구 (Required Toolset): Python, C/C++, Git + CI 워크플로우, 벤치마킹 및 프로파일링 도구
• 필수 요건 (Must Have): 모델을 작고 빠르게 만드는 능력, 엔드 투 엔드 최적화 주도 능력, 강력한 디버깅 기술, 이종 컴퓨팅 환경(NPU/GPU/CPU 폴백)에 대한 적응력
• Python + C/C++ (또는 동등한 수준의 로우 레벨 언어) 기반의 탄탄한 소프트웨어 엔지니어링 기술
• 다양한 기기에서 수치 문제(Numerical issues)를 디버깅하고 정확성을 보장해 본 경험
• 모호한 제약 조건 속에서 업무를 수행하고 "더 빨라야 한다"는 요구를 측정 가능한 엔지니어링 작업으로 전환하는 능력





