포지션 상세

업스테이지는 "Making AI Beneficial" 비전과 "Building intelligence for the future of work"라는 미션 아래, 단순히 글자와 문장만 읽는 수준을 넘어 사진·차트·표 등 시각 정보를 함께 파악하고 텍스트와 종합해 이해하는 Vision-Language-Model (VLM) 기반의 차세대 AI 솔루션을 만들고 있습니다. 이는 고객이 보유한 방대한 문서 데이터 속에서 잠들어 있던 정보를 추출하여, 새로운 인사이트와 부가가치를 실현할 수 있는 기회를 제공합니다. 이를 위해 업스테이지의 VLM 팀은 웹스케일의 데이터 수집과 합성, 대규모의 사전/사후 학습, 그리고 다양한 평가 방법에 대한 연구 개발을 진행하고 있습니다.

업스테이지는 누구나 손쉽게 AI 기술을 활용할 수 있도록 ‘사용이 쉬운 AI 솔루션’을 제공하는 것을 목표로 하고 있습니다. 이미 최고 수준의 OCR 기술과 문서 내 의미 있는 정보를 자동으로 추출하는 Key-Value 추출 기술을 보유하고 있으며, 최근에는 다양한 문서 레이아웃을 분석하는 Document Parsing 모델을 공개하였습니다. 이러한 기술들을 바탕으로, 업스테이지는 기업들의 업무 효율과 생산성을 극대화하는 맞춤형 AI 솔루션을 제공하여 AI가 실제 비즈니스에서 큰 가치를 창출할 수 있도록 노력하고 있습니다.

또한 LLM 기술을 비즈니스 환경에 맞게 최적화해 기업들의 업무 효율과 생산성을 높일 수 있는 Private LLM 서비스를 제공하는 등 AI가 세상에 이롭게 쓰이게 하기 위해 세계 최고 수준의 AI 모델을 다양한 분야에서 손쉽게 활용할 수 있는 API 시리즈를 출시하여 기업 고객들의 비즈니스 성공에 기여하고 있습니다. 그 중에서 업스테이지 Document AI는 세계 최고 수준의 OCR 및 정보추출 기술력을 바탕으로 한 제품으로, AI를 통해 번거로운 문서 처리를 자동화하고 효율화하겠다는 목표를 가지고 있습니다.

저희는 이 흥미롭고 도전적인 여정을 함께할 새로운 멤버를 찾고 있습니다. 멀티모달 AI 분야에서 기술을 선도하고자 하는 열정을 가지고, 연구에 그치지 않고 실제 서비스까지 연결되는 End-to-End AI 경험을 바탕으로, 협업을 통해 기술을 확장하고 제품화 과정에서 빠르게 성장하길 원하는 분이라면, 업스테이지 VLM 팀에 꼭 맞는 동료가 될 것입니다.

주요업무

• 데이터 수집 파이프라인 설계 및 구축
• 멀티모달 데이터(문서 이미지, 현장 사진, 차트 등)의 수집 및 필터링을 포함한 데이터 수집 파이프라인 설계 및 구축
• 데이터 품질 향상을 위한 전처리 및 개선 기법의 연구·적용
• 데이터팀과의 협업을 위한 Human-in-the-loop 기반 어노테이션 워크플로우 설계 및 운영
• 모델 학습
• 대규모 Multi-modal representation learning 및 Cross-modal pretraining 기법의 연구 및 적용
• 다양한 질의응답 태스크에 대응하기 위한 Instruction tuning 전략 개발
• 학습과 추론 효율을 고려한 모델 구조 개선 및 최적화 기법 연구
• 평가
• 문서 중심 VLM 모델의 성능을 평가하기 위한 다양한 평가 기법 조사 및 적용
• 실제 사용 환경에 부합하는 새로운 평가 방법의 개발 및 도입
• 지속적인 개선과 확장이 가능한 내부 벤치마크 도구의 설계 및 구현
• 그 외
• 연구 결과를 탑티어 국제 학회 논문 또는 오픈소스 코드 형태로 공유
• 최신 논문 재현 및 기법 도입을 위한 선행 연구 주도 및 팀 내 기술 공유
• 제품팀, MLOps팀 등과의 긴밀한 협업을 통한 모델의 실서비스 적용 및 시스템 통합

자격요건

• 관련 분야 석사 혹은 박사 학위
• AI 문제를 정의하고 해결하는 능력
• 기초 머신러닝 알고리즘에 대한 깊은 이해
• Python, C++ 등의 언어를 활용한 강력한 프로그래밍 능력 및 Linux/Shell 활용 능력
• 컴퓨터 비전(CV), 자연어처리(NLP), 멀티모달 학습 최신 알고리즘 이해
• 주요 기계 학습 프레임워크에 대한 깊은 이해(예: TensorFlow, PyTorch)
• 다양한 협업 환경에서 일할 수 있는 능력
• 훌륭한 의사 소통 능력

*CV를 포함한 모든 제출 자료는 PDF 형식으로 업로드 해주시기 바랍니다.
*지원자의 민감 정보(연봉 정보, 주민번호 등) 및 고유식별번호는 이력서에 기재하지 않도록 유의해주시기를 바랍니다.

AI Research Engineer - Vision Language Model

포지션 상세

주요업무

자격요건

기술 스택 • 툴

태그

마감일

근무지역