포지션 상세
[합류하게 될 팀에 대해 알려드려요.]
• Server Developer(SRE)는 서버 플랫폼팀에 속해 업무해요.
• 토스는 보통 작은 feature 단위의 사일로 조직으로 기획자, 디자이너, 개발자들이 소규모로 모여 서비스 제품이 만들어지는데요, 서버 플랫폼팀은 이런 사일로 조직들에서 필요로 하는 공통 기능들, 프레임워크를 만드는 팀이에요.
• 서버 플랫폼팀의 올해 목표는 증권 서비스들이 더 쉽고 빠르게 런칭되고 안정적으로 운영될 수 있도록 하는 것인데요, 앞으로도 많은 서비스들을 확장해 나가려고 해요.
• 사일로 조직과는 다르게 기획자가 따로 있지 않아요. 팀에 소속된 엔지니어들이 곧 기획자이자 개발자인데요, 어떤 기능들이 필요할지 직접 고민하고 의견을 수집해서 방향성을 정하고 만들어 나가고 있어요.
안정적인 서비스를 위한 장애 예방 및 대응을 담당해요.
• 장애 발생 시 누구보다 빠르게 대응하고, 서비스 영향도를 최소화하기 위한 대응 프로세스를 설계하고 운영해요.
• 장애의 근본 원인(RCA)을 분석하고, 사전·사후 탐지 역량을 강화해 복구 시간을 단축하며 재발을 방지할 수 있는 시스템을 구축해요.
서비스 가시성과 가용성을 확보해요.
• 인프라, 네트워크, Kubernetes 환경 전반의 가시성을 확보하고, 이를 실제 서비스 지표와 유기적으로 연결할 수 있는 환경을 구축해요.
• 문제 상황을 명확히 정의하기 위해 SLO를 수립하고, 필요한 메트릭을 수집해 알림(Alert) 시스템을 지속적으로 고도화해요.
• 트래픽 증가에 대비해 병목이 발생할 수 있는 컴포넌트를 선제적으로 찾아내고, 구조를 개선해요.
문제에 대해 심층적으로 분석하고, 원인을 규명해요.
• 서비스 장애 발생 시 로그 분석에 그치지 않고, eBPF, 메모리, 네트워크, 커널 영역까지 폭넓게 분석해 복합적인 원인을 찾아내요.
• 애플리케이션 내부 동작을 정밀하게 분석해, 최적의 리소스 설정 가이드를 개발팀에 제시해요.
운영 자동화 및 내부 도구를 개발해요.
• 반복적이고 패턴화된 분석 작업을 자동화하고, 운영 효율을 저해하는 요소를 찾아, 개선할 수 있는 도구를 직접 개발해요.
• 서비스 신뢰성을 높이기 위한 테스트 환경을 자동화하고, 동료들이 쉽게 활용할 수 있도록 제공해요.
• 성장하는 서비스에 맞춰 확장 가능한 아키텍처로 전환하거나, 구조적 개선을 통해 대규모 트래픽을 안정적으로 처리하는 서비스로 성장시킨 경험이 있으면 좋아요.
• Java, Kotlin, Spring Boot 프레임워크의 동작 원리를 깊이 이해하고, 성능 최적화 관점에서 코드를 분석하고 개선할 수 있는 분이면 좋아요.
• 복잡한 분산 환경에서 발생하는 문제를 논리적으로 접근해, 근본 원인을 끝까지 추적하는 집요함을 갖춘 분을 찾고 있어요.
• Linux OS와 커널, 네트워크 프로토콜(TCP/IP)에 대한 탄탄한 기본기를 바탕으로 로우 레벨 분석이 가능하신 분을 찾아요.
• 단순히 테스트를 수행하는 데 그치지 않고, “동료들이 테스트를 더 쉽고 자동화된 방식으로 할 수 있도록” 고민하며 테스트 플랫폼이나 환경을 구축해 본 경험이 있으면 좋아요.
• 비효율적인 반복 업무를 문제로 인식하고, 이를 코드로 해결해 시스템화해 본 경험이 있으면 좋아요.
[서버 플랫폼팀이 사용하는 기술]
• Language & Framework : Java, Kotlin, Spring Boot, JPA/Hibernate
• Scripting & Tooling : Python, Shell Script, Go, k6
• Deep Analysis : Linux(Kernel/Network), tcpdump, Wireshark, eBPF, heapdump, async profiler
• Infrastructure : Kubernetes, Istio, Nginx, Kafka
• Observability : Prometheus, Thanos, Grafana, ELK Stack
• CI/CD : GoCD, ArgoCD, GitHub Actions, Harbor
• Database : MySQL, MongoDB, Oracle, Redis
• Server Developer(SRE)는 서버 플랫폼팀에 속해 업무해요.
• 토스는 보통 작은 feature 단위의 사일로 조직으로 기획자, 디자이너, 개발자들이 소규모로 모여 서비스 제품이 만들어지는데요, 서버 플랫폼팀은 이런 사일로 조직들에서 필요로 하는 공통 기능들, 프레임워크를 만드는 팀이에요.
• 서버 플랫폼팀의 올해 목표는 증권 서비스들이 더 쉽고 빠르게 런칭되고 안정적으로 운영될 수 있도록 하는 것인데요, 앞으로도 많은 서비스들을 확장해 나가려고 해요.
• 사일로 조직과는 다르게 기획자가 따로 있지 않아요. 팀에 소속된 엔지니어들이 곧 기획자이자 개발자인데요, 어떤 기능들이 필요할지 직접 고민하고 의견을 수집해서 방향성을 정하고 만들어 나가고 있어요.
주요업무
[합류하면 함께할 업무예요]안정적인 서비스를 위한 장애 예방 및 대응을 담당해요.
• 장애 발생 시 누구보다 빠르게 대응하고, 서비스 영향도를 최소화하기 위한 대응 프로세스를 설계하고 운영해요.
• 장애의 근본 원인(RCA)을 분석하고, 사전·사후 탐지 역량을 강화해 복구 시간을 단축하며 재발을 방지할 수 있는 시스템을 구축해요.
서비스 가시성과 가용성을 확보해요.
• 인프라, 네트워크, Kubernetes 환경 전반의 가시성을 확보하고, 이를 실제 서비스 지표와 유기적으로 연결할 수 있는 환경을 구축해요.
• 문제 상황을 명확히 정의하기 위해 SLO를 수립하고, 필요한 메트릭을 수집해 알림(Alert) 시스템을 지속적으로 고도화해요.
• 트래픽 증가에 대비해 병목이 발생할 수 있는 컴포넌트를 선제적으로 찾아내고, 구조를 개선해요.
문제에 대해 심층적으로 분석하고, 원인을 규명해요.
• 서비스 장애 발생 시 로그 분석에 그치지 않고, eBPF, 메모리, 네트워크, 커널 영역까지 폭넓게 분석해 복합적인 원인을 찾아내요.
• 애플리케이션 내부 동작을 정밀하게 분석해, 최적의 리소스 설정 가이드를 개발팀에 제시해요.
운영 자동화 및 내부 도구를 개발해요.
• 반복적이고 패턴화된 분석 작업을 자동화하고, 운영 효율을 저해하는 요소를 찾아, 개선할 수 있는 도구를 직접 개발해요.
• 서비스 신뢰성을 높이기 위한 테스트 환경을 자동화하고, 동료들이 쉽게 활용할 수 있도록 제공해요.
자격요건
[이런 분과 함께하고 싶어요]• 성장하는 서비스에 맞춰 확장 가능한 아키텍처로 전환하거나, 구조적 개선을 통해 대규모 트래픽을 안정적으로 처리하는 서비스로 성장시킨 경험이 있으면 좋아요.
• Java, Kotlin, Spring Boot 프레임워크의 동작 원리를 깊이 이해하고, 성능 최적화 관점에서 코드를 분석하고 개선할 수 있는 분이면 좋아요.
• 복잡한 분산 환경에서 발생하는 문제를 논리적으로 접근해, 근본 원인을 끝까지 추적하는 집요함을 갖춘 분을 찾고 있어요.
• Linux OS와 커널, 네트워크 프로토콜(TCP/IP)에 대한 탄탄한 기본기를 바탕으로 로우 레벨 분석이 가능하신 분을 찾아요.
• 단순히 테스트를 수행하는 데 그치지 않고, “동료들이 테스트를 더 쉽고 자동화된 방식으로 할 수 있도록” 고민하며 테스트 플랫폼이나 환경을 구축해 본 경험이 있으면 좋아요.
• 비효율적인 반복 업무를 문제로 인식하고, 이를 코드로 해결해 시스템화해 본 경험이 있으면 좋아요.
[서버 플랫폼팀이 사용하는 기술]
• Language & Framework : Java, Kotlin, Spring Boot, JPA/Hibernate
• Scripting & Tooling : Python, Shell Script, Go, k6
• Deep Analysis : Linux(Kernel/Network), tcpdump, Wireshark, eBPF, heapdump, async profiler
• Infrastructure : Kubernetes, Istio, Nginx, Kafka
• Observability : Prometheus, Thanos, Grafana, ELK Stack
• CI/CD : GoCD, ArgoCD, GitHub Actions, Harbor
• Database : MySQL, MongoDB, Oracle, Redis


