포지션 상세
ZETIC.ai는 온디바이스(On-device) AI를 위한 배포 레이어(Deployment Layer)를 구축합니다.우리는 모델, 런타임, 하드웨어 사이의 접점에서 연구하며, AI 시스템이 통제된 환경뿐만 아니라 실제 기기에서 실제로 구동될 수 있도록 만듭니다. 우리는 단순한 포팅을 넘어, 하드웨어의 제약 조건을 알고리즘적 통찰로 극복하여 AI 모델을 수십억 개의 기기에 실제로 탑재(Shippable)하는 것을 목표로 합니다.
실무적으로 우리는 다음과 같은 문제들을 해결합니다:
• GPU 서버에서는 빠르지만 모바일 NPU에서는 느린 모델
• 기기마다 예측 불가능하게 변하는 성능
• 운영 환경에서 정확도가 깨지는 양자화(Quantized) 모델
• 벤치마크에서는 괜찮아 보이지만 실제 제약 조건 하에서는 실패하는 시스템
최신 AI 모델(VLM, LLM 등)의 구조적 특성과 온디바이스 추론 플랫폼 간의 접점을 연구하는 포지션 입니다. 이론적으로는 훌륭하지만 실제 기기에서 병목을 일으키는 모델을 가져와, 연산 특성 분석과 런타임 친화적 모델 최적화를 통해 하드웨어의 한계를 돌파합니다. 모델 학습(Training) 자체보다는 추론(Inference) 효율 극대화와 실제 제약 조건 하에서의 성능 리서치에 집중하는 역할입니다.
• 런타임 친화적 모델 최적화: 활용하는 추론 플랫폼(Runtime)의 가속 방식과 연산 지원 범위에 맞춰, 모델의 레이어나 구조를 런타임이 가장 효율적으로 처리할 수 있는 형태로 변환하여 지연 시간(Latency)을 극한으로 낮춥니다.
• 최신 효율화 기법의 전략적 적용: 단순 적용을 넘어, 온디바이스 환경과 각 런타임 특성에 최적화된 양자화(Quantization: INT4/8, FP8 등) 및 압축 기법을 선별하고 정확도 손실을 최소화하는 최적의 파라미터를 도출합니다.
• 실전적 성능 리서치: 오프라인 지표가 아닌, 실제 기기의 메모리 대역폭 및 발열 제약 하에서 모델이 가질 수 있는 이론적 한계 성능을 분석하고 이를 달성합니다.
• 모델 아키텍처에 대한 깊은 통찰: Transformer 기반의 VLM/LLM 구조가 실제 하드웨어 가속기 상에서 데이터 이동(Data Movement)과 연산을 어떻게 일으키는지 깊이 이해하고 있는 분
• 분석 기반의 문제 해결 능력: "왜 느린가"에 대해 단순 추측이 아닌, 프로파일링 데이터와 모델의 알고리즘적 특성을 결합해 논리적 근거를 제시할 수 있는 분
• 모델 최적화 기술에 대한 감각: 양자화, Pruning 등 최신 논문의 기법들을 실제 온디바이스 제약 조건에 맞춰 '실제로 작동하는 기술'로 변환해 본 경험이 있는 분
• 기술적 언어 활용 능력: Python 활용은 기본이며, 모델의 특성을 저수준 언어(C/C++) 기반의 런타임 제약 조건과 연결 지어 생각할 수 있는 분
실무적으로 우리는 다음과 같은 문제들을 해결합니다:
• GPU 서버에서는 빠르지만 모바일 NPU에서는 느린 모델
• 기기마다 예측 불가능하게 변하는 성능
• 운영 환경에서 정확도가 깨지는 양자화(Quantized) 모델
• 벤치마크에서는 괜찮아 보이지만 실제 제약 조건 하에서는 실패하는 시스템
최신 AI 모델(VLM, LLM 등)의 구조적 특성과 온디바이스 추론 플랫폼 간의 접점을 연구하는 포지션 입니다. 이론적으로는 훌륭하지만 실제 기기에서 병목을 일으키는 모델을 가져와, 연산 특성 분석과 런타임 친화적 모델 최적화를 통해 하드웨어의 한계를 돌파합니다. 모델 학습(Training) 자체보다는 추론(Inference) 효율 극대화와 실제 제약 조건 하에서의 성능 리서치에 집중하는 역할입니다.
주요업무
• 온디바이스 모델 프로파일링: 최신 SOTA 모델(VLM, LLM 등)의 연산 그래프를 분석하여, LiteRT, ExecuTorch, QNN 등 타겟 런타임이 모델을 처리하는 방식을 파악하고 하드웨어 활용 병목 구간을 연산 특성 기반으로 식별합니다.• 런타임 친화적 모델 최적화: 활용하는 추론 플랫폼(Runtime)의 가속 방식과 연산 지원 범위에 맞춰, 모델의 레이어나 구조를 런타임이 가장 효율적으로 처리할 수 있는 형태로 변환하여 지연 시간(Latency)을 극한으로 낮춥니다.
• 최신 효율화 기법의 전략적 적용: 단순 적용을 넘어, 온디바이스 환경과 각 런타임 특성에 최적화된 양자화(Quantization: INT4/8, FP8 등) 및 압축 기법을 선별하고 정확도 손실을 최소화하는 최적의 파라미터를 도출합니다.
• 실전적 성능 리서치: 오프라인 지표가 아닌, 실제 기기의 메모리 대역폭 및 발열 제약 하에서 모델이 가질 수 있는 이론적 한계 성능을 분석하고 이를 달성합니다.
자격요건
모델 학습을 넘어 ML 추론 또는 성능 최적화 문제를 다뤄보신 분• 모델 아키텍처에 대한 깊은 통찰: Transformer 기반의 VLM/LLM 구조가 실제 하드웨어 가속기 상에서 데이터 이동(Data Movement)과 연산을 어떻게 일으키는지 깊이 이해하고 있는 분
• 분석 기반의 문제 해결 능력: "왜 느린가"에 대해 단순 추측이 아닌, 프로파일링 데이터와 모델의 알고리즘적 특성을 결합해 논리적 근거를 제시할 수 있는 분
• 모델 최적화 기술에 대한 감각: 양자화, Pruning 등 최신 논문의 기법들을 실제 온디바이스 제약 조건에 맞춰 '실제로 작동하는 기술'로 변환해 본 경험이 있는 분
• 기술적 언어 활용 능력: Python 활용은 기본이며, 모델의 특성을 저수준 언어(C/C++) 기반의 런타임 제약 조건과 연결 지어 생각할 수 있는 분





