포지션 상세
아티스트컴퍼니는 쉽게 경험하기 힘든 대용량의 데이터와 트래픽을 보유하고 이를 바탕으로 시장에서 기술력을 인정받아 코스닥에 상장한 회사입니다.
1. 광고지면/행태정보 처리량 : 일 약 60억 건
2. 방문 사용자수 : 일 3천만명 이상
3. Cluster 규모 : PB급 hadoop cluster 및 production spark cluster 운영 중
4. Cloud Strategy : Google Cloud Platform, BigQuery Warehouse 이중화
로그/운영 데이터에 대한 아카이빙 및 배치 파이프라인 운영
비즈니스 연계 데이터의 주기적 적재 및 가공 처리
Hadoop 기반의 DataLake 및 Spark 클러스터 운영 및 최적화
Kafka 기반 로그 수집 및 실시간 이벤트 처리 시스템 유지관리
Data Pipeline의 Lifecycle 관리: 배포, 장애 대응, 백업 및 복구
자원 할당 및 스케줄 관리(Resource & schedule managing)
Spark, Hive, Airflow 등 활용한 배치 및 실시간 파이프라인 개발 경험
Kafka, Flink 등 실시간 처리 시스템에 대한 이해
GCP (BigQuery, GCS 등) 환경에서의 데이터 분석 및 저장소 운용 경험
SQL 기반 데이터 모델링 및 대용량 쿼리 튜닝 경험
데이터 파이프라인의 장애 대응 및 복구 실무 경험
Linux 환경에서의 시스템 운영 및 Shell/Python 스크립팅 역량
1. 광고지면/행태정보 처리량 : 일 약 60억 건
2. 방문 사용자수 : 일 3천만명 이상
3. Cluster 규모 : PB급 hadoop cluster 및 production spark cluster 운영 중
4. Cloud Strategy : Google Cloud Platform, BigQuery Warehouse 이중화
주요업무
실시간 데이터 집계를 위한 스트리밍 파이프라인 개발 및 운영로그/운영 데이터에 대한 아카이빙 및 배치 파이프라인 운영
비즈니스 연계 데이터의 주기적 적재 및 가공 처리
Hadoop 기반의 DataLake 및 Spark 클러스터 운영 및 최적화
Kafka 기반 로그 수집 및 실시간 이벤트 처리 시스템 유지관리
Data Pipeline의 Lifecycle 관리: 배포, 장애 대응, 백업 및 복구
자원 할당 및 스케줄 관리(Resource & schedule managing)
자격요건
Hadoop 기반 분산처리 환경 운영 경험Spark, Hive, Airflow 등 활용한 배치 및 실시간 파이프라인 개발 경험
Kafka, Flink 등 실시간 처리 시스템에 대한 이해
GCP (BigQuery, GCS 등) 환경에서의 데이터 분석 및 저장소 운용 경험
SQL 기반 데이터 모델링 및 대용량 쿼리 튜닝 경험
데이터 파이프라인의 장애 대응 및 복구 실무 경험
Linux 환경에서의 시스템 운영 및 Shell/Python 스크립팅 역량