포지션 상세
카카오헬스케어 데이터엔지니어링팀은 임상 데이터의 흐름과 라이프사이클을 체계적으로 관리하며, 연구와 분석에 필요한 데이터를 안정적으로 제공합니다.
데이터 품질을 정량적·정성적으로 관리할 수 있는 기준을 만들고, 분석팀 및 개발팀과의 협업을 통해 의료 데이터의 활용 가치를 지속적으로 높이고 있습니다. 또한 대규모 데이터를 효율적으로 처리할 수 있는 데이터 파이프라인과 분석 환경을 구축하여, 연구자들이 더 빠르고 정확하게 데이터를 활용할 수 있도록 지원합니다. 이번 포지션은 데이터 아키텍처와 파이프라인을 안정적으로 운영·고도화하고, 데이터 기반 연구 환경을 한 단계 끌어올리는 역할을 담당하게 됩니다.
• 데이터 파이프라인 구축 : Iceberg, Spark, Airflow, Python을 활용한 ETL 인프라 구축, 관리
• 인프라 최적화 : Cloud 및 On-prem 환경에서의 파이프라인 성능 개선 및 장애 대응
• 워크플로우 자동화 : GitLab/Jenkins, GitHub/GitHub Actions 를 활용한 데이터 워크플로우 CI/CD 환경 구축
• AI 혁신 : LLM 및 AI 기술을 데이터 엔지니어링 영역에 도입하여 업무 자동화 및 서비스 개선
• 인프라 역량 : Kubernetes 기반 데이터 파이프라인 운영 및 컨테이너 환경에 익숙하신 분
• 데이터 처리 : Spark 등 분산처리 환경에서의 대용량 데이터 처리 경험이 있으신 분
• 기술 스택 : Python 및 SQL을 활용한 데이터 가공 및 분석 역량을 보유하신 분
• 성장 마인드 : 도전적인 문제를 주도적으로 해결하며, 더 나은 아키텍처를 위해 끊임없이 고민하시는 분
• 협업 능력 : 다양한 유관 부서(DA, DS, 개발자)와 원활하게 소통하고 팀워크를 중시하시는 분
• ※ 포트폴리오 제출 필수
데이터 품질을 정량적·정성적으로 관리할 수 있는 기준을 만들고, 분석팀 및 개발팀과의 협업을 통해 의료 데이터의 활용 가치를 지속적으로 높이고 있습니다. 또한 대규모 데이터를 효율적으로 처리할 수 있는 데이터 파이프라인과 분석 환경을 구축하여, 연구자들이 더 빠르고 정확하게 데이터를 활용할 수 있도록 지원합니다. 이번 포지션은 데이터 아키텍처와 파이프라인을 안정적으로 운영·고도화하고, 데이터 기반 연구 환경을 한 단계 끌어올리는 역할을 담당하게 됩니다.
주요업무
• 아키텍처 설계 및 운영 : Data Warehouse 및 Lakehouse 기반 분석 아키텍처 설계, 운영• 데이터 파이프라인 구축 : Iceberg, Spark, Airflow, Python을 활용한 ETL 인프라 구축, 관리
• 인프라 최적화 : Cloud 및 On-prem 환경에서의 파이프라인 성능 개선 및 장애 대응
• 워크플로우 자동화 : GitLab/Jenkins, GitHub/GitHub Actions 를 활용한 데이터 워크플로우 CI/CD 환경 구축
• AI 혁신 : LLM 및 AI 기술을 데이터 엔지니어링 영역에 도입하여 업무 자동화 및 서비스 개선
자격요건
• 실무 경험 : (Cloud / On-prem) 데이터 파이프라인 구축 및 운영 경험이 있으신 분• 인프라 역량 : Kubernetes 기반 데이터 파이프라인 운영 및 컨테이너 환경에 익숙하신 분
• 데이터 처리 : Spark 등 분산처리 환경에서의 대용량 데이터 처리 경험이 있으신 분
• 기술 스택 : Python 및 SQL을 활용한 데이터 가공 및 분석 역량을 보유하신 분
• 성장 마인드 : 도전적인 문제를 주도적으로 해결하며, 더 나은 아키텍처를 위해 끊임없이 고민하시는 분
• 협업 능력 : 다양한 유관 부서(DA, DS, 개발자)와 원활하게 소통하고 팀워크를 중시하시는 분
• ※ 포트폴리오 제출 필수











