‘영상 이해 파운데이션 모델’의 동작을 이미지화해 이해를 돕고 있다.
기업 ‘트웰브랩스’는 영상 이해 AI 모델을 자체 연구해 직접 제품까지 개발합니다. 영상을 이해하는 AI 모델을 이야기기하기 앞서, 영상이라는 데이터가 무엇인지 깊이 들여다봐야 합니다. 우리가 흔히 소셜 미디어에서 보거나 촬영하는 영상에는 청각 데이터인 오디오와 시각 데이터인 프레임 정보가 모두 포함됩니다. 그러므로 AI 모델이 영상을 이해한다는 것 또한 단순히 ‘이미지를 보는 것’이 아닌 오디오와 프레임에 담긴 내용(정보)을 사람처럼 이해한다는 것을 의미합니다.
트웰브랩스의 영상기반 모델 : Marengo, Pegasus
Marengo와 Pegasus의 사용 예시
‘Marengo’는 자연어를 통해 영상 속 특정 장면을 검색하도록 도와주는 영상 이해 모델이자 검색 엔진입니다. 다른 소셜 미디어에서는 흔히 영상을 검색하기 위해 영상의 내용이 아닌 영상 제목, 업로드 날짜, 태그 등의 메타 데이터를 이용합니다. 만약 영상을 이해해 정확히 원하는 장면을 찾을 수 있는 검색 엔진이 있다면 어떤 일이 일어날까요? 많은 것이 달라질 거예요. ‘Marengo’는 영상 검색의 패러다임을 바꿀 수 있는 그런 엔진입니다.
‘Pegasus’는 영상을 기반해 원하는 내용을 텍스트로 생성해 주는 영상 언어 생성 모델입니다. 수많은 영상을 보고 내용을 파악하는 데 긴 시간을 소비하고 계셨다면 Pegasus가 도와줄 수 있습니다. 영상을 이해해 제목, 해시태그와 같은 메타 데이터를 생성하고 ‘chapter’ ‘highlight’ ‘summary’와 같이 영상 내용을 문서화 할 수 있도록 도와줍니다. Pegasus의 가장 중요한 기능은 유저가 직접 프롬프트를 입력하며 원하는 내용을 커스터마이징해 요청할 수 있다는 점입니다.
트웰브랩스의 뛰어난 Marengo와 Pegasus 엔진을 고객에게 제공하기 위해서는 유연하고 사용하기 쉬운 인터페이스 개발뿐만 아니라, 대용량 비디오 데이터를 빠르고 안정적으로 처리하는 고도의 엔지니어링 기술이 요구됩니다. 또한 지속적으로 새로운 기술을 시도하고 실제 사례를 통해 모델을 개선할 수 있는 ‘연구-개발-비즈니스’의 견고한 사이클도 필수겠죠.
AI 기반 지식 없이 바로 사용할 수 있는 제품
모델을 직접 사용하기 위해서는 모델에 대한 이해와 머신러닝 엔지니어링 스킬이 필요합니다. 트웰브랩스는 이와 같은 기술적 허들을 줄이고자 고객이 쉽게 활용할 수 있는 인터페이스를 개발해 플랫폼을 제공하고 있습니다.
23년 12월에 서울 오피스에서 열린 타운홀
트웰브랩스에서는 선례를 찾기 힘든 도전적인 기술 과제들을 풀고 있습니다. 모델을 많은 사람이 사용 가능하도록 배포하고 인프라를 구성하는 것부터 API를 통해 계속 새로운 모델을 빠르게 사용할 수 있도록 만들고, 고객 환경에서 실행 가능하도록 도전합니다. 수많은 기술 과제 중 현재 트웰브랩스가 집중하고 있는 과제들을 간단하게 소개드립니다.
Simple, Flexible and Adaptable Interface
직관적이고 단순한 인터페이스 설계는 더 많은 사용자가 기술을 쉽게 활용할 수 있도록 허들을 낮춥니다. 트웰브랩스의 API, Playground, SDK 등 사용자가 상호작용하는 모든 인터페이스는 단순함과 직관성을 최우선으로 두고 설계하고 있습니다. 이러한 인터페이스 설계의 기초는 일관된 용어와 개념에서 시작됩니다. 시스템 전반에 걸쳐 통일된 용어를 사용함으로써, 사용자가 전체 시스템을 더욱 빠르고 효율적으로 이해할 수 있도록 돕습니다. 이러한 설계 과정은 엔지니어링 작업에서 그치지 않으며 PM, Technical Writer, Developer Relations 팀과 긴밀하게 협력해 사용성을 극대화하도록 노력하고 있습니다.
트웰브랩스의 인터페이스는 높은 유연성과 적응력을 갖추고 있어 사용자 경험을 단순화하면서도 기술적 복잡성을 효과적으로 관리해 새로운 모델과 기능이 지속적으로 추가되는 환경에서도 사용자가 높은 생산성과 유연성을 유지할 수 있도록 설계되었습니다. 이를 위해 backward compatibility를 고려해 인터페이스를 설계해야 합니다. 새로운 기능이 추가되거나 기능이 변경될 시 레거시 기능과의 충돌을 방지하는 테스트와 검증 과정을 거쳐 breaking change를 예방합니다. 또한 웹, 데스크탑, 모바일 애플리케이션 등 다양한 환경에서 원활하게 작동할 수 있도록 다중 플랫폼 지원을 위한 다양한 언어와 프레임워크에 맞춰 개발되고 있습니다.
Minimize Cost, Maximize Performance
트웰브랩스의 영상 이해 모델을 서빙하는 데는 텍스트, 이미지, 오디오 기반 모델보다 훨씬 더 높은 비용이 발생합니다. 특히, 모델의 입력 값을 영상으로부터 추출하기 위한 디코딩 등 전처리 과정에는 막대한 컴퓨팅 자원이 필요합니다.
영상은 다른 데이터에 비해 용량이 크기 때문에, 이를 효과적으로 저장하기 위해 H.264, H.265, VP9과 같은 다양한 압축 알고리즘(코덱)이 사용됩니다. 트웰브랩스는 비디오를 다루기 위해 다양한 코덱과 컨테이너를 범용적으로 지원하며, 비디오 데이터를 AI 모델이 효과적으로 활용할 수 있도록 비디오 프레임을 신속하게 변환하는 전처리 과정을 최적화하고 있습니다.
고객에게 최적의 성능과 낮은 지연 시간을 보장하기 위해, 디코딩과 추론의 최적화 뿐만 아니라 1시간 분량의 영상을 단 3~4분 안에 처리할 수 있도록 병렬 파이프 라이닝(parallel pipelining) 기법을 적용해 모델 추론과 비디오 데이터 처리를 최적화합니다. 이를 통해 고객은 최대 성능을 발휘하는 모델을 낮은 비용으로 사용할 수 있습니다. 저희 추론 시스템의 목표는 고객이 최고 수준의 퍼포먼스를 경험하면서도, 비용 효율적인 솔루션을 개발하는 것입니다.
Scalable and Robust Infrastructure
영상 AI 기반 플랫폼에는 견고하고 확장 가능한 인프라가 핵심적인 요소입니다. 대규모 비디오 데이터와 복잡한 모델을 안정적으로 처리하면서, GPU 자원을 최적화해 고성능을 유지할 수 있는 인프라를 구축하는 과제를 해결하고 있습니다.
대규모 비디오 데이터를 실시간으로 처리하기 위해 분산 처리 시스템을 활용합니다. 이러한 시스템은 비디오 데이터의 양이 증가하더라도 지연 없이 처리할 수 있으며, 시스템의 안정성을 유지합니다. 특히, 초거대 모델을 서빙하기 위해 GPU의 성능을 최대한 활용하고, 워크로드를 효율적으로 분산시키는 전략이 필수적입니다. 이를 위해, GPU 자원 관리와 할당을 최적화해 모델 서빙 시 발생할 수 있는 병목 현상을 최소화합니다.
또한, 각종 모델의 서빙을 위해 효율적인 자원 할당과 스케일링을 가능하게 하는 컨테이너화된 환경을 구축해 필요에 따라 시스템을 신속하게 확장하거나 축소할 수 있도록 합니다. 이러한 구조는 다양한 모델 타입을 서빙하면서도 안정성과 성능을 유지할 수 있도록 도와줍니다.
복잡한 인프라를 단순하고 선언적인 방식으로 관리하기 위해, 인프라 코드(Infrastructure as Code, IaC) 방식을 채택해 모든 인프라 요소를 코드로 관리합니다. 이를 통해 인프라의 설정과 배포 과정이 자동화되고, 재현성이 보장됩니다. 또한, 다양한 환경에 적응할 수 있도록 클라우드 기반과 온프레미스 환경 모두를 지원하며 인프라의 유연성을 극대화합니다.
Marrying Science, Engineering and Business
트웰브랩스는 기존에 없던 초대형 영상 언어 AI 모델을 직접 연구하고 개발하며 제품화해 고객에게 제공하고 있습니다. 이러한 통합된 방식을 통해, 현실의 복잡한 문제들을 해결할 수 있는 최고의 모델을 개발하고 비즈니스로 연계할 수 있습니다.
새로운 모델을 개발하거나 차기 모델을 개발할 때에 비즈니스팀, 제품 개발팀 그리고 리서치팀이 함께 모여 모델에 대한 피드백과 사용 사례 등을 함께 공유하고 모델의 방향성과 로드맵을 함께 그립니다. 또한, 리서치팀은 엔지니어링팀과 긴밀히 협업해 연구 과제를 공유하고 엔지니어링 실현 가능성을 함께 검토합니다. 이 과정에서 리서치팀은 엔지니어링에 대해, 엔지니어링팀은 리서치에 대해 서로 배우고 이해하게 됩니다.
엔지니어링팀과 비즈니스팀은 제품과 고객의 우선순위를 바탕으로 로드맵과 타임라인을 논의하고, 이를 통해 명확한 제품 목표를 설정합니다. 이러한 협업은 제품이 시장에서 성공적으로 자리 잡을 수 있도록 방향을 제시합니다.
트웰브랩스는 연구, 엔지니어링, 제품 개발, 비즈니스의 끊임없는 루프를 보다 효율적으로 실행할 수 있도록 지속적으로 조직 문화와 업무 방식을 최적화해 나가고 있습니다. 서로 다른 전문성과 시각을 가지고 있는 다양한 분야를 하나의 통합된 팀과 문화로 결합시켜 유기적이고 긴밀하게 협력하며 목표를 달성할 수 있는 환경을 만들어 나가고 있습니다.
다양성을 바탕으로 성장하는 트웰브랩스
미국 라스베가스에서 열린 2024 NAB Show에서 모인 US팀원들과 KR팀원들
국제 컴퓨터 비전 학회(ICCV)에서 인정받은 SOTA Model을 시작으로 세상에서 다양한 고객이 실제 가치를 느껴보고 사용할 수 있도록 솔루션을 만드는 팀으로 성장하기까지 엔지니어링뿐만 아닌 조직과 문화 모든 것들이 굉장히 빠르게 성장하고 변화하고 있습니다. 트웰브랩스는 미국 오피스와 한국 오피스에 분산되어 있는 팀이며 엔지니어링, 비지니스, 리서치, 디자인, 운영 모든 영역이 글로벌 팀원으로 구성되어 있습니다. 서로 시간대도 다르고 문화도 언어도 다른 사람들이 한 팀에 모여서 일할 수 있는 것은 트웰브랩스가 풀고 있는 문제가 세상에 크게 영향을 줄 수 있다고 믿고 있기 때문입니다. 또한, 서로 다른 경험을 가지고 기술적/경험적으로 보완할 수 있는 팀의 문화와 도전을 포기하지 않고 끝까지 풀어내는 훌륭한 팀원분들의 영향이 크다고 생각합니다. 앞으로도 더욱 더 빠르게 성장하고 어려운 문제를 풀어나갈 트웰브랩스 팀을 눈여겨 봐주시면 감사하겠습니다.