포지션 상세
• 하루 3천만+ 사용자, 60억+ 이벤트 규모의 데이터 위에서 이미지·텍스트를 함께 이해하는 멀티모달 모델로 검색/추천/광고 품질을 끌어올립니다.
• VLM(예: CLIP·OpenCLIP·SigLIP), OCR, LLM을 결합해 상품 검색/브라우징/광고 랜딩 경험을 개선하고, RAG 기반 질의응답/요약/리랭킹을 실험합니다.
• 임베딩과 Vector DB(Qdrant/FAISS/Pinecone 등)를 이용해 대규모 후보 탐색을 운영합니다.
• PB급 데이터 인프라(GCP/BigQuery, Hadoop/Spark) 위에서 온·오프라인 평가 체계를 정교하게 설계하고, A/B 테스트로 제품 임팩트를 검증합니다.
• 광고/커머스 도메인 경험이 없어도 괜찮습니다. 입사 후 빠르게 적응할 수 있도록 온보딩과 멘토링, 데이터/실험 가이드를 제공합니다.
- 후보 탐색: Qdrant (FAISS, 등) 기반 ANN 인덱스 구축(HNSW, IVF 등), 증분 업데이트 및 모니터링
- 리랭킹: 크로스 인코더 또는 LLM 기반 리랭커 적용, 지연시간-정확도 trade-off tuning
- 평가/실험: MRR, nDCG, Recall@K 중심의 오프라인 평가 팀과 함께 A/B 테스트 설계/분석
- 협업: 재현 가능한 Python 코드/실험(MLflow/W&B), 코드 리뷰 & 문서화, 데이터/백엔드/PM과의 서비스 연동
- 스택
- torch, tf, OpenCLIP/CLIP/SigLIP
- SQL, BigQuery/GCP, Spark/Hadoop
- Vector DB: FAISS, Qdrant, Pinecone, Milvus 등
- Ops: Git, Docker, Airflow/Argo, MLflow/Weights & Biases
- 서빙/최적화: ONNX/TensorRT, Triton/KServe, gRPC/REST
• 2–5년 내외의 딥러닝 기반 CV 또는 NLP/멀티모달 프로젝트 실무 혹은 동등 경험(인턴, 연구, 대회 포함)
• Python으로 데이터 전처리, 모델 학습, 평가 가능, PyTorch 또는 TensorFlow 숙련
• 텍스트/이미지 임베딩 생성과 Vector DB(FAISS/Qdrant 등) 연동 경험
• 검색/추천 평가 지표(MRR, nDCG, Recall@K 등)와 오프라인온라인 실험 전환에 대한 기본 이해
• SQL로 데이터 추출/분석 가능, 기초 통계 및 실험 설계 이해(가설검정, 편향/분산 등)
• 재현 가능한 실험과 Git 기반 협업 경험, 명확한 커뮤니케이션, 재현 가능한 실험 습관
• VLM(예: CLIP·OpenCLIP·SigLIP), OCR, LLM을 결합해 상품 검색/브라우징/광고 랜딩 경험을 개선하고, RAG 기반 질의응답/요약/리랭킹을 실험합니다.
• 임베딩과 Vector DB(Qdrant/FAISS/Pinecone 등)를 이용해 대규모 후보 탐색을 운영합니다.
• PB급 데이터 인프라(GCP/BigQuery, Hadoop/Spark) 위에서 온·오프라인 평가 체계를 정교하게 설계하고, A/B 테스트로 제품 임팩트를 검증합니다.
• 광고/커머스 도메인 경험이 없어도 괜찮습니다. 입사 후 빠르게 적응할 수 있도록 온보딩과 멘토링, 데이터/실험 가이드를 제공합니다.
주요업무
- 임베딩 파이프라인: CLIP/SigLIP 등으로 상품 이미지/텍스트 임베딩 생성 및 정제, 배치 파이프라인 구성- 후보 탐색: Qdrant (FAISS, 등) 기반 ANN 인덱스 구축(HNSW, IVF 등), 증분 업데이트 및 모니터링
- 리랭킹: 크로스 인코더 또는 LLM 기반 리랭커 적용, 지연시간-정확도 trade-off tuning
- 평가/실험: MRR, nDCG, Recall@K 중심의 오프라인 평가 팀과 함께 A/B 테스트 설계/분석
- 협업: 재현 가능한 Python 코드/실험(MLflow/W&B), 코드 리뷰 & 문서화, 데이터/백엔드/PM과의 서비스 연동
- 스택
- torch, tf, OpenCLIP/CLIP/SigLIP
- SQL, BigQuery/GCP, Spark/Hadoop
- Vector DB: FAISS, Qdrant, Pinecone, Milvus 등
- Ops: Git, Docker, Airflow/Argo, MLflow/Weights & Biases
- 서빙/최적화: ONNX/TensorRT, Triton/KServe, gRPC/REST
자격요건
• 학사이상 (전공: 통계학, CS, Data Science, AI related)• 2–5년 내외의 딥러닝 기반 CV 또는 NLP/멀티모달 프로젝트 실무 혹은 동등 경험(인턴, 연구, 대회 포함)
• Python으로 데이터 전처리, 모델 학습, 평가 가능, PyTorch 또는 TensorFlow 숙련
• 텍스트/이미지 임베딩 생성과 Vector DB(FAISS/Qdrant 등) 연동 경험
• 검색/추천 평가 지표(MRR, nDCG, Recall@K 등)와 오프라인온라인 실험 전환에 대한 기본 이해
• SQL로 데이터 추출/분석 가능, 기초 통계 및 실험 설계 이해(가설검정, 편향/분산 등)
• 재현 가능한 실험과 Git 기반 협업 경험, 명확한 커뮤니케이션, 재현 가능한 실험 습관

