포지션 상세
[Infra Department 소개]
Hyperconnect Infra Department는 SRE팀, DevOps팀, Platform개발팀, Data Engineering팀 구성원들이 모여 Azar, Hakuna Live, Hyperconnect Enterprise 등 전사 모든 서비스에 인프라와 공통 플랫폼 기술을 제공하여 비즈니스 임팩트를 만들고 있습니다. 또한, 기술 silo화를 방지하고 전사적으로 훌륭한 엔지니어링 문화를 만들어가는데 기여하고 있습니다.
[Infra Department에서는 이렇게 일하고 있습니다.]
- 개발팀에서 필요한 인프라를 단순히 생성하는 것이 아니라, 비즈니스 요구사항과 기술적인 요구사항을 모두 포괄하여 알맞은 시스템 설계를 제공하고 있습니다. 이 과정에서 전사 개발팀 뿐만 아니라 필요 시 다른 직군의 이해관계자와 질의 응답을 진행하는 전반적인 process를 리딩하고 있습니다.
- 기술적 지표, 로그 및 소스코드 등 다양한 정보를 스스로 탐색하여, 개발팀 또는 SRE/DevOps팀의 사각지대에 위치한 문제를 찾아 정의해내고 해결하고 있습니다.
- 기본적인 설계 방법 및 모범 사례에 대한 문서를 작성하여, 개발팀이나 다른 SRE/DevOps팀 동료가 스스로 문제를 해결 할 수 있도록 돕고 있습니다.
- 현재 기술 스택에 안주하지 않고, 문제를 더 잘 해결 할 수 있는 새로운 기술을 탐구하여 적극적으로 도입하고 있습니다.
[ML Platform Team 소개]
ML Platform 팀은 하이퍼커넥트의 여러 프로덕트에 ML 기술을 도입하고 안정적으로 운영하기 위해 다양한 시스템과 인프라를 구축합니다. 이를 위해 클라우드 환경에서 저비용 고효율의 ML 플랫폼을 구축하고, ML의 기술적 문제를 정의하여 해결하는 업무를 수행하고 있습니다.
팀에 합류하신다면,
- Global 수준의 대규모 ML 트래픽을 효율적으로 처리하는 여러 가지 기술과 노하우를 경험할 수 있습니다.
- 다양한 도메인에 걸쳐 대규모 학습 데이터를 처리하는 데이터 플랫폼 구축에 참여할 수 있습니다.
- 실시간으로 동작하는 모바일 경량 모델을 연구, 개발, 최적화하는 전 과정에 참여할 수 있습니다.
- 클라우드/온프레미스 환경에서 GPU 노드를 운영하고 개선하는 경험을 해볼 수 있습니다.
- DevOps팀과 긴밀하게 협업하여, 전사 AWS EKS 클러스터 기반으로 MLOps를 구축해보는 경험과 다양한 노하우를 배울 수 있습니다.
- 지속적으로 탑티어 AI/ML 학회에 논문을 발표하는 국내 최고 수준의 여러 AI 조직과 협업하여 SotA ML 기술을 서비스에 도입하는 경험을 해볼 수 있습니다.
* 2018년 저전력 이미지 인식 대회 (LPIRC) 2등
* 2019년 모바일 환경에 최적화된 경량 이미지 세그멘테이션 모델(MMNet) 아카이브 업로드
* 2019년 모바일에서 빠르게 동작하는 키워드 스팟팅 모델(TC-ResNet) INTERSPEECH 2019 게재
* 2019년 퓨샷 러닝을 통한 안면 재현 기술 AAAI 2020 게재
* 2020년 퓨샷 러닝을 통한 Text-to-Speech(TTS) 기술 INTERSPEECH 2020 게재
* 2020년 Long-tailed Visual Recognition 문제를 Label distribution shift 관점에서 해결하는 기술 CVPR 2021 게재
* 2021년 효율적인 Retriever기반 Chatbot을 위한 Large-Scale Generative 모델 활용 연구 EMNLP 2021 게재
* 2021년 Tabular Learning 기반 효율적인 Click-Through Rate Prediction 모델 ICLR 2021 Workshop 발표
* 2022년 모바일 환경에서 오디오 분류를 위한 distillation 기술 연구 ICASSP 게재
* 2022년 대화 생성 모델에서 예시를 활용하여 성능을 높이는 연구 ACL 2022 Workshop 발표
* 2022년 퓨샷 러닝을 통한 캐릭터를 따라하는 챗봇 연구 NAACL 2022 게재
* 2022년 레이블 노이즈가 심한 환경에서 효과적으로 학습하는 방법 ECCV 2022 게재
* 2022년 대화 생성에서의 의미적 다양성을 높이는 연구 EMNLP 2022 게재
* 2023년 모더레이션 환경에서 여러 분류 기준을 동시에 만족하기 위한 문턱값을 잡는 연구 WSDM 2023 게재
- 프로덕트로부터 얻은 데이터를 이용하여 모델을 재학습 / 평가 / 배포하고, 다시 프로덕트를 개선하는 자동화된 선순환 구조(AI Flywheel)를 구축하는 업무를 수행합니다. ML 파이프라인의 각 단계(ML 데이터 처리, ML 모델 학습, ML 데이터 배포)별로 MLOps 컴포넌트를 제공하고, 연구자가 이를 조합하여 쉽게 ML 파이프라인을 구축할 수 있도록 돕습니다.
- Airflow 기반으로 다양한 도메인으로부터 데이터를 수집하는 데이터 파이프라인과, 클라우드 스토리지와 학습 환경을 원활하게 연결하는 데이터 플랫폼을 개발하고 있습니다.
- KFP 기반으로 자동 학습 워크플로우를 구성할 수 있도록 클라우드 인프라와 도구를 제공하며, 실험과 파이프라인 양면에서 활용할 수 있도록 새로운 영역을 탐색하고 있습니다.
• 모델 서빙 플랫폼 개발
- Custom kubernetes operator와 NVIDIA Triton를 이용하여 일원화된 서빙 플랫폼을 제공합니다. 이를 통해 다양한 도메인에서 다양한 딥러닝 프레임워크(Tensorflow, PyTorch)로 학습된 ML 모델을 빠르게 프로덕션으로 배포할 수 있습니다.
- 그리고 소프트웨어 및 하드웨어의 개선을 통해 모델 추론의 속도와 처리량을 최적화하고, 지속적인 모니터링과 AWS Neuron 등 고효율 계산 자원을 사용함으로써 비용을 최적화하는 업무를 수행합니다.
[Deview 2021 - 어떻게 더 많은 모델을 더 빠르게 배포할 것인가?] : https://deview.kr/2021/sessions/419
[머신러닝 모델 서빙 비용 1/4로 줄이기] : https://hyperconnect.github.io/2022/12/13/infra-cost-optimization-with-aws-inferentia.html
• ML Ops 인프라 구축 및 도구 개발
- 온프레미스 GPU 클러스터(NVIDIA DGX system) 및 고속 분산 스토리지를 구축하고, Ansible을 활용하여 관리/운영함으로써 연구에 필요한 인적/물적 비용을 절약합니다.
[초고성능 딥러닝 클러스터 구축하기 1편] : https://hyperconnect.github.io/2020/12/21/deep-learning-cluster-1.html
- ML Platform 팀에서 제공하는 파이프라인 컴포넌트와 서빙 플랫폼을 제어하고 활용할 수 있는 개발자 포탈, CLI 도구 등을 개발합니다. 또한 빠르게 발전하는 MLOps 신기술의 PoC를 진행하고, 필요 시 프로덕션에 적용하는 일도 수행합니다.
• 모바일 기기에서 동작하는 추론 엔진 개발
- TFLite, PytorchMobile 등을 이용하여 하이퍼커넥트의 on-device 모델을 활용할 수 있는 추론 엔진 SDK를 연구/개발합니다. 모바일 모델의 변환, 양자화(quantization), SIMD 최적화, 개발 환경 구축 등을 AI 조직과 함께 수행합니다.
• 알고리즘, OS, 네트워크 등 전반적인 CS 지식과 기본적인 머신러닝/통계 개념을 이해하고 계신 분
• C++, Go, Python 중 하나 이상의 언어로 프로덕션 서비스를 개발하신 분
• 기술 트렌드를 따라, 새로운 기술을 학습하는 것에 즐거움을 느끼시는 분
• 다양한 조직과 협업에 필요한 뛰어난 커뮤니케이션 스킬과 문서 정리 능력을 갖추신 분
• ML 모델을 프로덕션에 적용해 서비스에 도입한 경험이 있으신 분
Hyperconnect Infra Department는 SRE팀, DevOps팀, Platform개발팀, Data Engineering팀 구성원들이 모여 Azar, Hakuna Live, Hyperconnect Enterprise 등 전사 모든 서비스에 인프라와 공통 플랫폼 기술을 제공하여 비즈니스 임팩트를 만들고 있습니다. 또한, 기술 silo화를 방지하고 전사적으로 훌륭한 엔지니어링 문화를 만들어가는데 기여하고 있습니다.
[Infra Department에서는 이렇게 일하고 있습니다.]
- 개발팀에서 필요한 인프라를 단순히 생성하는 것이 아니라, 비즈니스 요구사항과 기술적인 요구사항을 모두 포괄하여 알맞은 시스템 설계를 제공하고 있습니다. 이 과정에서 전사 개발팀 뿐만 아니라 필요 시 다른 직군의 이해관계자와 질의 응답을 진행하는 전반적인 process를 리딩하고 있습니다.
- 기술적 지표, 로그 및 소스코드 등 다양한 정보를 스스로 탐색하여, 개발팀 또는 SRE/DevOps팀의 사각지대에 위치한 문제를 찾아 정의해내고 해결하고 있습니다.
- 기본적인 설계 방법 및 모범 사례에 대한 문서를 작성하여, 개발팀이나 다른 SRE/DevOps팀 동료가 스스로 문제를 해결 할 수 있도록 돕고 있습니다.
- 현재 기술 스택에 안주하지 않고, 문제를 더 잘 해결 할 수 있는 새로운 기술을 탐구하여 적극적으로 도입하고 있습니다.
[ML Platform Team 소개]
ML Platform 팀은 하이퍼커넥트의 여러 프로덕트에 ML 기술을 도입하고 안정적으로 운영하기 위해 다양한 시스템과 인프라를 구축합니다. 이를 위해 클라우드 환경에서 저비용 고효율의 ML 플랫폼을 구축하고, ML의 기술적 문제를 정의하여 해결하는 업무를 수행하고 있습니다.
팀에 합류하신다면,
- Global 수준의 대규모 ML 트래픽을 효율적으로 처리하는 여러 가지 기술과 노하우를 경험할 수 있습니다.
- 다양한 도메인에 걸쳐 대규모 학습 데이터를 처리하는 데이터 플랫폼 구축에 참여할 수 있습니다.
- 실시간으로 동작하는 모바일 경량 모델을 연구, 개발, 최적화하는 전 과정에 참여할 수 있습니다.
- 클라우드/온프레미스 환경에서 GPU 노드를 운영하고 개선하는 경험을 해볼 수 있습니다.
- DevOps팀과 긴밀하게 협업하여, 전사 AWS EKS 클러스터 기반으로 MLOps를 구축해보는 경험과 다양한 노하우를 배울 수 있습니다.
- 지속적으로 탑티어 AI/ML 학회에 논문을 발표하는 국내 최고 수준의 여러 AI 조직과 협업하여 SotA ML 기술을 서비스에 도입하는 경험을 해볼 수 있습니다.
* 2018년 저전력 이미지 인식 대회 (LPIRC) 2등
* 2019년 모바일 환경에 최적화된 경량 이미지 세그멘테이션 모델(MMNet) 아카이브 업로드
* 2019년 모바일에서 빠르게 동작하는 키워드 스팟팅 모델(TC-ResNet) INTERSPEECH 2019 게재
* 2019년 퓨샷 러닝을 통한 안면 재현 기술 AAAI 2020 게재
* 2020년 퓨샷 러닝을 통한 Text-to-Speech(TTS) 기술 INTERSPEECH 2020 게재
* 2020년 Long-tailed Visual Recognition 문제를 Label distribution shift 관점에서 해결하는 기술 CVPR 2021 게재
* 2021년 효율적인 Retriever기반 Chatbot을 위한 Large-Scale Generative 모델 활용 연구 EMNLP 2021 게재
* 2021년 Tabular Learning 기반 효율적인 Click-Through Rate Prediction 모델 ICLR 2021 Workshop 발표
* 2022년 모바일 환경에서 오디오 분류를 위한 distillation 기술 연구 ICASSP 게재
* 2022년 대화 생성 모델에서 예시를 활용하여 성능을 높이는 연구 ACL 2022 Workshop 발표
* 2022년 퓨샷 러닝을 통한 캐릭터를 따라하는 챗봇 연구 NAACL 2022 게재
* 2022년 레이블 노이즈가 심한 환경에서 효과적으로 학습하는 방법 ECCV 2022 게재
* 2022년 대화 생성에서의 의미적 다양성을 높이는 연구 EMNLP 2022 게재
* 2023년 모더레이션 환경에서 여러 분류 기준을 동시에 만족하기 위한 문턱값을 잡는 연구 WSDM 2023 게재
주요업무
• 지속적 학습 파이프라인 구축- 프로덕트로부터 얻은 데이터를 이용하여 모델을 재학습 / 평가 / 배포하고, 다시 프로덕트를 개선하는 자동화된 선순환 구조(AI Flywheel)를 구축하는 업무를 수행합니다. ML 파이프라인의 각 단계(ML 데이터 처리, ML 모델 학습, ML 데이터 배포)별로 MLOps 컴포넌트를 제공하고, 연구자가 이를 조합하여 쉽게 ML 파이프라인을 구축할 수 있도록 돕습니다.
- Airflow 기반으로 다양한 도메인으로부터 데이터를 수집하는 데이터 파이프라인과, 클라우드 스토리지와 학습 환경을 원활하게 연결하는 데이터 플랫폼을 개발하고 있습니다.
- KFP 기반으로 자동 학습 워크플로우를 구성할 수 있도록 클라우드 인프라와 도구를 제공하며, 실험과 파이프라인 양면에서 활용할 수 있도록 새로운 영역을 탐색하고 있습니다.
• 모델 서빙 플랫폼 개발
- Custom kubernetes operator와 NVIDIA Triton를 이용하여 일원화된 서빙 플랫폼을 제공합니다. 이를 통해 다양한 도메인에서 다양한 딥러닝 프레임워크(Tensorflow, PyTorch)로 학습된 ML 모델을 빠르게 프로덕션으로 배포할 수 있습니다.
- 그리고 소프트웨어 및 하드웨어의 개선을 통해 모델 추론의 속도와 처리량을 최적화하고, 지속적인 모니터링과 AWS Neuron 등 고효율 계산 자원을 사용함으로써 비용을 최적화하는 업무를 수행합니다.
[Deview 2021 - 어떻게 더 많은 모델을 더 빠르게 배포할 것인가?] : https://deview.kr/2021/sessions/419
[머신러닝 모델 서빙 비용 1/4로 줄이기] : https://hyperconnect.github.io/2022/12/13/infra-cost-optimization-with-aws-inferentia.html
• ML Ops 인프라 구축 및 도구 개발
- 온프레미스 GPU 클러스터(NVIDIA DGX system) 및 고속 분산 스토리지를 구축하고, Ansible을 활용하여 관리/운영함으로써 연구에 필요한 인적/물적 비용을 절약합니다.
[초고성능 딥러닝 클러스터 구축하기 1편] : https://hyperconnect.github.io/2020/12/21/deep-learning-cluster-1.html
- ML Platform 팀에서 제공하는 파이프라인 컴포넌트와 서빙 플랫폼을 제어하고 활용할 수 있는 개발자 포탈, CLI 도구 등을 개발합니다. 또한 빠르게 발전하는 MLOps 신기술의 PoC를 진행하고, 필요 시 프로덕션에 적용하는 일도 수행합니다.
• 모바일 기기에서 동작하는 추론 엔진 개발
- TFLite, PytorchMobile 등을 이용하여 하이퍼커넥트의 on-device 모델을 활용할 수 있는 추론 엔진 SDK를 연구/개발합니다. 모바일 모델의 변환, 양자화(quantization), SIMD 최적화, 개발 환경 구축 등을 AI 조직과 함께 수행합니다.
자격요건
• Linux 환경에서 개발 및 서버 운용 경험이 있으신 분• 알고리즘, OS, 네트워크 등 전반적인 CS 지식과 기본적인 머신러닝/통계 개념을 이해하고 계신 분
• C++, Go, Python 중 하나 이상의 언어로 프로덕션 서비스를 개발하신 분
• 기술 트렌드를 따라, 새로운 기술을 학습하는 것에 즐거움을 느끼시는 분
• 다양한 조직과 협업에 필요한 뛰어난 커뮤니케이션 스킬과 문서 정리 능력을 갖추신 분
• ML 모델을 프로덕션에 적용해 서비스에 도입한 경험이 있으신 분