포지션 상세

[합류하게 될 팀의 미션]
빅인은 고객의 데이터를 분석하고 마케팅 자동화 솔루션을 통해 비즈니스 성장을 견인하는 B2B SaaS 기업입니다.

AWS 기반의 대규모 데이터 플랫폼을 운영하고 고도화할 Data Platform Engineer를 찾습니다.
현재 저희는 AWS EKS 환경에서 Argo Workflows, Apache Iceberg, MongoDB, Vitess, ClickHouse, Flink 등 다양한 최신 데이터 스택을 활용하여 워크로드를 운영하고 있습니다.
단순한 데이터 파이프라인 개발에 그치지 않고, 플랫폼의 안정적인 동작을 위한 인프라 운영, 데이터 저장소 관리, 장애 대응부터 리소스 및 비용 최적화까지 플랫폼 전반의 엔지니어링을 주도적으로 담당하시게 됩니다.

주요업무

• AWS EKS 기반 데이터 플랫폼 운영 및 개선
• Argo Workflows 기반 배치/데이터 처리 파이프라인 설계, 운영, 장애 대응
• Go 또는 Python을 활용한 데이터 처리 도구, 운영 자동화 도구, 내부 CLI 개발
• Apache Iceberg 기반 데이터 레이크 테이블 운영
• S3 기반 데이터 적재, 변환, 검증, backfill 파이프라인 관리
• MongoDB 기반 데이터 저장소 운영, 스키마 설계, 인덱스/쿼리 성능 개선
• Vitess/MySQL sharding 환경 운영 및 장애 대응
• ClickHouse 기반 OLAP/분석 워크로드 운영 및 성능 최적화
• Flink 기반 streaming/batch 워크로드 운영
• Kubernetes 리소스 request/limit, HPA, Karpenter, nodegroup 기반 스케일링 최적화
• StatefulSet, PVC/PV, PDB, anti-affinity 등 stateful workload 운영 안정성 관리
• Prometheus/Grafana 기반 모니터링 지표 정의 및 알람 개선
• AWS 비용 구조를 고려한 리소스 최적화
• 장애 발생 시 로그, 메트릭, 이벤트 기반 원인 분석 및 재발 방지

자격요건

## Responsibilities
• AWS EKS 기반 데이터 플랫폼 운영 및 개선
• Argo Workflows 기반 배치/데이터 처리 파이프라인 설계, 운영, 장애 대응
• Go 또는 Python을 활용한 데이터 처리 도구, 운영 자동화 도구, 내부 CLI 개발
• Apache Iceberg 기반 데이터 레이크 테이블 운영
• S3 기반 데이터 적재, 변환, 검증, backfill 파이프라인 관리
• MongoDB 기반 데이터 저장소 운영, 스키마 설계, 인덱스/쿼리 성능 개선
• Vitess/MySQL sharding 환경 운영 및 장애 대응
• ClickHouse 기반 OLAP/분석 워크로드 운영 및 성능 최적화
• Flink 기반 streaming/batch 워크로드 운영
• Kubernetes 리소스 request/limit, HPA, Karpenter, nodegroup 기반 스케일링 최적화
• StatefulSet, PVC/PV, PDB, anti-affinity 등 stateful workload 운영 안정성 관리
• Prometheus/Grafana 기반 모니터링 지표 정의 및 알람 개선
• AWS 비용 구조를 고려한 리소스 최적화
• 장애 발생 시 로그, 메트릭, 이벤트 기반 원인 분석 및 재발 방지

## Required Qualifications
• AWS 기반 서비스 운영 경험
• Kubernetes 또는 EKS 운영 경험
• Argo Workflows, Airflow, Dagster 등 workflow orchestration 운영 경험
• Python 또는 Go 중 하나 이상을 활용한 데이터 처리/운영 자동화 개발 경험
• 대용량 데이터 파이프라인 운영 경험
• Linux, shell scripting, kubectl 기반 문제 분석 능력
• Kubernetes pod scheduling, resource request/limit, HPA, PVC/PV 등 기본 개념 이해
• RDBMS, NoSQL, OLAP 중 하나 이상에 대한 운영 또는 성능 개선 경험
• 장애 상황에서 로그와 메트릭을 기반으로 원인을 좁혀갈 수 있는 능력

## What Makes A Strong Fit
• 데이터 파이프라인과 Kubernetes 운영을 함께 볼 수 있는 분
• 실패한 워크플로우를 단순 재실행하지 않고 원인과 재발 방지까지 보는 분
• DB, 스토리지, 워크플로우, 인프라를 분리해서 보지 않고 전체 병목을 추적할 수 있는 분
• 배치 처리의 idempotency, backfill, retry, 중복 처리 문제를 중요하게 생각하는 분
• 비용과 안정성 사이의 트레이드오프를 숫자로 판단할 수 있는 분
• 반복적인 운영 작업을 코드와 자동화로 줄이는 분
• 데이터 품질, 처리 지연, 리소스 병목을 운영 지표로 관리하려는 분

## Tech Stack
| Area | Stack |
| --- | --- |
| Cloud | AWS |
| Orchestration | EKS, Kubernetes, Karpenter, HPA |
| Workflow | Argo Workflows |
| Data Lake | Apache Iceberg, S3, Glue Catalog |
| Data Processing | Go, Python, Shell |
| Data Stores | MongoDB, Vitess/MySQL, ClickHouse |
| Streaming/Batch | Flink, batch processing workloads |
| Observability | Prometheus, Grafana, Kubernetes events/logs |
| Cost/Infra | EC2 nodegroups, Savings Plan, RI, EBS, S3 |

## Interview Topics
• Argo Workflow 실패 원인 분석 및 재처리 전략
• EKS nodegroup별 request/limit 기준 비용 절감 후보 분석
• Iceberg 테이블의 small file, compaction, snapshot expire 전략
• MongoDB slow query/index 문제 분석
• Vitess vttablet/vtgate 장애 시 원인 분석 접근법
• ClickHouse partition/merge/query 성능 문제 해결 경험
• Python 또는 Go로 Kubernetes 리소스 사용량을 집계하는 CLI 설계
• S3 기반 데이터 파이프라인에서 idempotency와 backfill 설계

## Evaluation Criteria
지원자를 볼 때는 특정 기술 키워드 개수보다 아래 기준을 우선합니다.
• AWS EKS 위에서 데이터 워크로드를 실제로 운영해본 경험이 있는가
• Argo Workflows 또는 유사한 workflow system에서 실패/재처리/백필을 다뤄본 경험이 있는가
• Python 또는 Go로 운영 자동화를 직접 만들어본 경험이 있는가
• MongoDB, Vitess, ClickHouse 중 하나 이상을 운영 관점에서 깊게 다뤄본 경험이 있는가
• Kubernetes 리소스와 AWS 비용을 연결해서 판단할 수 있는가
• 장애 상황에서 로그, 메트릭, 이벤트, 리소스 상태를 보고 원인을 좁혀갈 수 있는가

Data Platform Engineer

포지션 상세

주요업무

자격요건

기술 스택 • 툴

태그

마감일

근무지역