포지션 상세
[Global No.1 AI Voice, Humelo]
휴멜로는 "목소리의 미래" 를 만드는 AI 음성 기업입니다. 2초의 원본 음성으로 실제와 구분하기 어려운 고품질 Voice Cloning을, 48kHz 스튜디오급 음질로, 실시간 스트리밍으로 구현하는 자체 TTS 엔진 DIVE를 개발하고 있습니다. 대기업이 흉내 내기 쉽지 않을 만큼 앞서나간 음성 AI 기술을 갖추고 있으며, Speech Synthesis, Voice Conversion 등 다양한 영역에서 '진짜 사람 같은 AI 목소리'를 구현합니다.
DIVE는 개발자용 음성 AI SaaS Prosody Console을 통해 이스트소프트(Perso)·보이저엑스(Vrew)·팀벨(AICC 파트너) 등 국내 주요 기업의 서비스에 연동되어 운영되고 있습니다. 2025년 글로벌 K-FAST 얼라이언스 사업자, 2026년 딥테크 TIPS에 선정되어 차세대 음성 AI 연구·개발을 이어 가고 있습니다. 앞서 KT 'AI Voice Studio / 마이 AI 보이스' 제품, SM엔터테인먼트 AI 아티스트 '나이비스(nævis)', 밀리의서재 오디오북 등에도 기술을 제공해 왔습니다.
휴멜로가 지향하는 것은 기술을 넘어, '목소리'를 둘러싼 모든 경험을 바꾸는 것입니다. 음악·미디어·엔터테인먼트·커뮤니케이션·AICC 전반에 걸쳐 음성 AI를 자연스럽게 녹여내고, 상상하지 못했던 새로운 기회를 만들어 나갑니다. 이제 막 본격적으로 전 세계 시장을 향해 나아가기 시작한 휴멜로와 함께, 음성의 새로운 시대를 열어갈 연구자를 기다립니다.
우리는 아래 제품·서비스에서 연구를 매일 검증합니다.
* Prosody Console (B2B): 개발자용 음성 AI API/SaaS. 고객사가 DIVE TTS 등 휴멜로 엔진을 자사 서비스에 실시간 연동할 수 있도록 제공하며, 국내 주요 기업들이 도입해 운영 중입니다.
* Tikita (B2C): AI 캐릭터와 음성으로 대화하는 인터랙티브 오디오 스토리. 웹·iOS·Android 4개 국어 출시
* TiVA: 차세대 B2B AICC 솔루션으로 개발 중 — 상담·콜센터 시나리오를 겨냥한 온프레미스 음성 AI
• 관련 보도
1. 휴멜로 DIVE 보이스클로닝, 이스트소프트 Perso Studio에 공급 (뉴스웍스, 2026)
2. 글로벌 AI판, '보이스 에이전트' 경쟁 후끈…K-스타트업도 본격 참여 (디지털투데이, 2026)
3. [Let's 스타트업] 휴멜로, 대화 맥락·감정까지 살린 보이스 AI로 승부 (매일경제, 2026)
4. 진짜보다 더 진짜 같은 목소리… 보이스 AI, 규제 넘어 '공존'의 시대 (매일경제, 2025)
5. [써봤다] 20초만에 AI로 만든 내 목소리… 콜센터 지형도 바꾸는 휴멜로 '프로소디' (테크M, 2025)
6. "맥락 파악해 목소리 톤·템포 조율…보이스 AI 시대 열겠다" (매일경제, 2025)
7. 네카오가 픽한 AI 스타트업들…차세대 '비밀무기' 될까 (SR타임스, 2025)
8. AI 기업 휴멜로, LLM 아닌 '니치'에서 길 찾았다…보이스에 집중해 자체 파운데이션 모델 (테크M, 2025)
9. 휴멜로, TTS 음질 '48kHz 스튜디오'급으로 업샘플링하는 기술 공개 (바이라인네트워크, 2025)
10. 휴멜로, 부산 '국제스트리밍페스티벌'에서 차세대 AI 보이스 공개 (로봇신문, 2025)
11. [AI 혁명] AI와 실시간 음성 대화…'양방향 TTS' 목표 휴멜로 (아시아경제, 2025)
12. 휴멜로, 글로벌 K-FAST 얼라이언스에 AI 미디어 기술 분야 합류 (AI타임스, 2025)
13. 소리 분석해 사고 막고 품질 검사까지…듣는 AI가 뜬다 [긱스] (한국경제, 2024)
14. 센슈얼 오디오 플랫폼 '플링(PLING)', 맞춤형 AI 보이스 기능 도입 (경향신문, 2023)
15. AI로 찾아온 나 너 우리…추모와 회상의 방식도 '디지털화' (매일경제, 2023)
16. 고(故)유상철 감독이 카타르 월드컵 응원할 수 있었던 이유는 (한국일보, 2023)
17. AI의 마법… 20대 윤여정 30대 최민식을 재현하다 (문화일보, 2023)
18. '밀리의 서재'가 성우 연예인 대신 AI 목소리 쓰는 이유 (디지털데일리, 2023)
19. "나만의 AI 목소리 만든다"…KT '마이 AI 보이스' 출시 (뉴스1, 2022)
20. [쫌아는기자들] 감정을 표현하고 노래도 하는 음성합성 엔진, 휴멜로 (조선일보, 2021)
• 주요 성과 및 인정
* ['26] 딥테크 TIPS 2026 선정
* ['25] 글로벌 K-FAST 얼라이언스 사업자 선정
* ['24] 기술보증기금 보증 승인 획득
* ['24] Post-TIPS 성장 지원 대상 기업 선정
* ['23] KOREA AI STARTUP TOP100 선정
* ['22] 2022 서울시 R&D 성과 우수 투자부문 서울시장 표창
* ['22] KT Partner Award 대상
* ['22] KT DIGICO 공모전 선정
• 주요 투자사: FuturePlay, KT인베스트먼트, 카카오인베스트먼트, KDB캐피탈
• 주요 고객사·파트너사: KT, LG전자, LG U+, LG CNS, SM엔터테인먼트, 스마일게이트, 밀리의서재, 보이저엑스(VREW), 삼성SDS, 이스트소프트(Perso), 팀벨(AICC 파트너), KBS, MBC, 비디오스튜, 셀렉트스타, 카카오페이, 딥브레인AI 등
[Position Overview]
본 포지션은 휴멜로의 자체 TTS 엔진 DIVE의 연구·개발을 담당합니다. DIVE는 현재 프로덕션 단계에서 실시간 스트리밍 합성에 사용되고 있으며, 다음 단계로 멀티턴 대화 환경에서도 자연스럽게 동작하는 TTS로 확장해 나가는 연구가 중심 주제입니다.
우리가 지금 푸는 문제
1. 맥락 인지 대화형 TTS — 지금까지 "알아서 맥락을 파악해 대화하듯 말하는 TTS"는 GPT-4o, Moshi 같은 블랙박스 E2E 모델에서만 가능했습니다. 대신 이 방식은 외부에서 운율을 제어할 수 없고, 분리형(Cascaded) 방식은 제어는 가능하지만 맥락 인지가 떨어집니다. DIVE는 외부에서 제어 가능한 Glass-box 구조에서 맥락 인지 합성까지 가능한 기반을 이미 갖추고 있으며, 이 강점을 제대로 끌어올리는 것이 이번 연구의 중심 주제입니다.
2. 초저지연 멀티턴 음성 대화 — 48kHz 조건에서 종단간 300ms 이하를 목표로 합니다. Moshi가 200ms·24kHz·제어 불가라면, 우리는 스튜디오급 음질 + 저지연 + 명시적 운율 제어를 동시에 달성하는 것을 목표로 합니다. Full-duplex, Barge-in 탐지, 스트리밍 합성의 자연스러운 흐름 설계가 주요 주제입니다.
3. 스트리밍 대역폭 확장 — 16kHz 저음질을 48kHz 스튜디오 품질로 실시간 복원합니다. 배치 모델 수준의 품질을 유지하면서 저지연 스트리밍에 적합한 접근을 함께 고민하는 과제입니다.
주요업무
* 자체 TTS 엔진 DIVE의 연구·개발
* 맥락 인지 대화형 TTS 연구 — DIVE의 멀티턴 맥락 인지 기반을 Glass-box 구조에서 본격적으로 끌어올리는 연구
* 초저지연 스트리밍 파이프라인 구현 (점진 합성, Barge-in, 전이중 통신)
* 경량 Neural Vocoder·BWE 실시간 최적화
* 자체 10만 시간 규모 다국어 학습 데이터셋 기반 모델 학습·평가
* Prosody Console(B2B)·Tikita(B2C) 서비스에 연구 결과 즉시 A/B 이식 및 지표 검증
* 연구 성과를 국제 학회·저널 논문으로 정리·투고 (Interspeech, ICASSP, ACL/EMNLP, IEEE/ACM TASLP 등)
* 관련 기술 특허 발명자로 참여
* 딥러닝 프레임워크로 모델 설계·학습·추론을 직접 수행해 본 실무 경험 (프레임워크 종류는 무관)
* 수백~수천 시간 규모 음성 데이터 학습 파이프라인 운영 경험
* 딥러닝·신호처리·음운론 기초 (mel-spectrogram, STFT, F0, prosody 이해)
* 영어 논문 독해·재현 및 1저자 논문 작성 의지
휴멜로는 "목소리의 미래" 를 만드는 AI 음성 기업입니다. 2초의 원본 음성으로 실제와 구분하기 어려운 고품질 Voice Cloning을, 48kHz 스튜디오급 음질로, 실시간 스트리밍으로 구현하는 자체 TTS 엔진 DIVE를 개발하고 있습니다. 대기업이 흉내 내기 쉽지 않을 만큼 앞서나간 음성 AI 기술을 갖추고 있으며, Speech Synthesis, Voice Conversion 등 다양한 영역에서 '진짜 사람 같은 AI 목소리'를 구현합니다.
DIVE는 개발자용 음성 AI SaaS Prosody Console을 통해 이스트소프트(Perso)·보이저엑스(Vrew)·팀벨(AICC 파트너) 등 국내 주요 기업의 서비스에 연동되어 운영되고 있습니다. 2025년 글로벌 K-FAST 얼라이언스 사업자, 2026년 딥테크 TIPS에 선정되어 차세대 음성 AI 연구·개발을 이어 가고 있습니다. 앞서 KT 'AI Voice Studio / 마이 AI 보이스' 제품, SM엔터테인먼트 AI 아티스트 '나이비스(nævis)', 밀리의서재 오디오북 등에도 기술을 제공해 왔습니다.
휴멜로가 지향하는 것은 기술을 넘어, '목소리'를 둘러싼 모든 경험을 바꾸는 것입니다. 음악·미디어·엔터테인먼트·커뮤니케이션·AICC 전반에 걸쳐 음성 AI를 자연스럽게 녹여내고, 상상하지 못했던 새로운 기회를 만들어 나갑니다. 이제 막 본격적으로 전 세계 시장을 향해 나아가기 시작한 휴멜로와 함께, 음성의 새로운 시대를 열어갈 연구자를 기다립니다.
우리는 아래 제품·서비스에서 연구를 매일 검증합니다.
* Prosody Console (B2B): 개발자용 음성 AI API/SaaS. 고객사가 DIVE TTS 등 휴멜로 엔진을 자사 서비스에 실시간 연동할 수 있도록 제공하며, 국내 주요 기업들이 도입해 운영 중입니다.
* Tikita (B2C): AI 캐릭터와 음성으로 대화하는 인터랙티브 오디오 스토리. 웹·iOS·Android 4개 국어 출시
* TiVA: 차세대 B2B AICC 솔루션으로 개발 중 — 상담·콜센터 시나리오를 겨냥한 온프레미스 음성 AI
• 관련 보도
1. 휴멜로 DIVE 보이스클로닝, 이스트소프트 Perso Studio에 공급 (뉴스웍스, 2026)
2. 글로벌 AI판, '보이스 에이전트' 경쟁 후끈…K-스타트업도 본격 참여 (디지털투데이, 2026)
3. [Let's 스타트업] 휴멜로, 대화 맥락·감정까지 살린 보이스 AI로 승부 (매일경제, 2026)
4. 진짜보다 더 진짜 같은 목소리… 보이스 AI, 규제 넘어 '공존'의 시대 (매일경제, 2025)
5. [써봤다] 20초만에 AI로 만든 내 목소리… 콜센터 지형도 바꾸는 휴멜로 '프로소디' (테크M, 2025)
6. "맥락 파악해 목소리 톤·템포 조율…보이스 AI 시대 열겠다" (매일경제, 2025)
7. 네카오가 픽한 AI 스타트업들…차세대 '비밀무기' 될까 (SR타임스, 2025)
8. AI 기업 휴멜로, LLM 아닌 '니치'에서 길 찾았다…보이스에 집중해 자체 파운데이션 모델 (테크M, 2025)
9. 휴멜로, TTS 음질 '48kHz 스튜디오'급으로 업샘플링하는 기술 공개 (바이라인네트워크, 2025)
10. 휴멜로, 부산 '국제스트리밍페스티벌'에서 차세대 AI 보이스 공개 (로봇신문, 2025)
11. [AI 혁명] AI와 실시간 음성 대화…'양방향 TTS' 목표 휴멜로 (아시아경제, 2025)
12. 휴멜로, 글로벌 K-FAST 얼라이언스에 AI 미디어 기술 분야 합류 (AI타임스, 2025)
13. 소리 분석해 사고 막고 품질 검사까지…듣는 AI가 뜬다 [긱스] (한국경제, 2024)
14. 센슈얼 오디오 플랫폼 '플링(PLING)', 맞춤형 AI 보이스 기능 도입 (경향신문, 2023)
15. AI로 찾아온 나 너 우리…추모와 회상의 방식도 '디지털화' (매일경제, 2023)
16. 고(故)유상철 감독이 카타르 월드컵 응원할 수 있었던 이유는 (한국일보, 2023)
17. AI의 마법… 20대 윤여정 30대 최민식을 재현하다 (문화일보, 2023)
18. '밀리의 서재'가 성우 연예인 대신 AI 목소리 쓰는 이유 (디지털데일리, 2023)
19. "나만의 AI 목소리 만든다"…KT '마이 AI 보이스' 출시 (뉴스1, 2022)
20. [쫌아는기자들] 감정을 표현하고 노래도 하는 음성합성 엔진, 휴멜로 (조선일보, 2021)
• 주요 성과 및 인정
* ['26] 딥테크 TIPS 2026 선정
* ['25] 글로벌 K-FAST 얼라이언스 사업자 선정
* ['24] 기술보증기금 보증 승인 획득
* ['24] Post-TIPS 성장 지원 대상 기업 선정
* ['23] KOREA AI STARTUP TOP100 선정
* ['22] 2022 서울시 R&D 성과 우수 투자부문 서울시장 표창
* ['22] KT Partner Award 대상
* ['22] KT DIGICO 공모전 선정
• 주요 투자사: FuturePlay, KT인베스트먼트, 카카오인베스트먼트, KDB캐피탈
• 주요 고객사·파트너사: KT, LG전자, LG U+, LG CNS, SM엔터테인먼트, 스마일게이트, 밀리의서재, 보이저엑스(VREW), 삼성SDS, 이스트소프트(Perso), 팀벨(AICC 파트너), KBS, MBC, 비디오스튜, 셀렉트스타, 카카오페이, 딥브레인AI 등
주요업무
[R&D] Voice AI Research Scientist — Multi-turn Conversational TTS[Position Overview]
본 포지션은 휴멜로의 자체 TTS 엔진 DIVE의 연구·개발을 담당합니다. DIVE는 현재 프로덕션 단계에서 실시간 스트리밍 합성에 사용되고 있으며, 다음 단계로 멀티턴 대화 환경에서도 자연스럽게 동작하는 TTS로 확장해 나가는 연구가 중심 주제입니다.
우리가 지금 푸는 문제
1. 맥락 인지 대화형 TTS — 지금까지 "알아서 맥락을 파악해 대화하듯 말하는 TTS"는 GPT-4o, Moshi 같은 블랙박스 E2E 모델에서만 가능했습니다. 대신 이 방식은 외부에서 운율을 제어할 수 없고, 분리형(Cascaded) 방식은 제어는 가능하지만 맥락 인지가 떨어집니다. DIVE는 외부에서 제어 가능한 Glass-box 구조에서 맥락 인지 합성까지 가능한 기반을 이미 갖추고 있으며, 이 강점을 제대로 끌어올리는 것이 이번 연구의 중심 주제입니다.
2. 초저지연 멀티턴 음성 대화 — 48kHz 조건에서 종단간 300ms 이하를 목표로 합니다. Moshi가 200ms·24kHz·제어 불가라면, 우리는 스튜디오급 음질 + 저지연 + 명시적 운율 제어를 동시에 달성하는 것을 목표로 합니다. Full-duplex, Barge-in 탐지, 스트리밍 합성의 자연스러운 흐름 설계가 주요 주제입니다.
3. 스트리밍 대역폭 확장 — 16kHz 저음질을 48kHz 스튜디오 품질로 실시간 복원합니다. 배치 모델 수준의 품질을 유지하면서 저지연 스트리밍에 적합한 접근을 함께 고민하는 과제입니다.
주요업무
* 자체 TTS 엔진 DIVE의 연구·개발
* 맥락 인지 대화형 TTS 연구 — DIVE의 멀티턴 맥락 인지 기반을 Glass-box 구조에서 본격적으로 끌어올리는 연구
* 초저지연 스트리밍 파이프라인 구현 (점진 합성, Barge-in, 전이중 통신)
* 경량 Neural Vocoder·BWE 실시간 최적화
* 자체 10만 시간 규모 다국어 학습 데이터셋 기반 모델 학습·평가
* Prosody Console(B2B)·Tikita(B2C) 서비스에 연구 결과 즉시 A/B 이식 및 지표 검증
* 연구 성과를 국제 학회·저널 논문으로 정리·투고 (Interspeech, ICASSP, ACL/EMNLP, IEEE/ACM TASLP 등)
* 관련 기술 특허 발명자로 참여
자격요건
* 음성 합성(TTS)·음성 인식·대화 시스템·LLM 중 하나 이상에서 석사 이상 + 연구/개발 3년 이상 (박사는 연차 무관)* 딥러닝 프레임워크로 모델 설계·학습·추론을 직접 수행해 본 실무 경험 (프레임워크 종류는 무관)
* 수백~수천 시간 규모 음성 데이터 학습 파이프라인 운영 경험
* 딥러닝·신호처리·음운론 기초 (mel-spectrogram, STFT, F0, prosody 이해)
* 영어 논문 독해·재현 및 1저자 논문 작성 의지




