포지션 상세

AI for everyone, everywhere
AI를 누구에게나, 어디에서나

노타는 AI 최적화 기술을 통해 AI의 일상화를 선도하는 기업입니다.

우리는 다양한 디바이스와 산업 전반에 걸쳐, 누구나 어디서나 AI를 사용할 수 있는 세상을 만들고자 합니다.

노타의 핵심 제품인 넷츠프레소(NetsPresso)는 하드웨어의 특성을 이해하는 AI 모델 최적화 플랫폼입니다. 또한, 차세대 영상 관제 솔루션 (NVA: Nota Vision Agent), 지능형 교통 시스템(ITS) 등 온디바이스 생성형 AI 솔루션을 통해 실제 산업 현장에서의 AI 실현 가능성을 넓히고 있습니다.

국내 스타트업으로는 최초로 삼성과 LG의 투자 유치 기록을 보유하고 있으며, 네이버 DS2F의 첫 투자 기업이기도 합니다. 최근에는 두바이 교통국과의 AI 솔루션 공급 계약을 체결하고, CB Insights AI 100에도 선정되는 등 글로벌 무대에서의 성과를 이어가고 있습니다.

노타는 빠르게 성장하는 조직과 함께할 다양한 직군의 노타 크루를 찾고 있습니다. 직급과 경력에 관계없이 누구나 동등한 입장에서 의견을 나눌 수 있는 수평적인 문화 속에서, 공동의 목표를 향해 자율적으로 일할 수 있는 분과 함께하고 싶습니다.

누구나, 어디에서나 AI의 가치를 경험할 수 있도록 하는 여정, 지금 노타에서 함께하세요.

[우리 팀을 소개합니다.]
Infra 팀은 노타의 AI Model Optimization & Compression Workload와 On-device AI Validation Pipeline을 떠받치는 기반 Infrastructure를 설계·구축하고 운영 가능한 형태로 정착시키는 역할을 담당합니다.
GPU Self-Service Platform, Data Center Backbone Network, Distributed Storage(Ceph), Local LLM Gateway, Edge Device Farm, Security & Access Control(ZTNA·Bastion·Vault), Observability, FinOps, DevSecOps 표준화까지 폭넓은 영역을 다루며, NetsPresso·NVA 플랫폼 및 사내 R&D 과제(On-device AI Agent 등)가 안정적으로 구동될 수 있도록 단순 유지보수가 아닌 실질적인 플랫폼 구축과 운영 표준화를 동시에 추진하고 있습니다.
이번 포지션은 시스템 엔지니어링 깊이(Hardware·OS·Network·Storage 레이어)와 플랫폼 빌더 역량(R&D 사용자가 셀프서비스로 쓸 내부 플랫폼을 제품처럼 만들고 운영)을 동시에 요구하는 자리입니다. AI Infrastructure 전반을 횡단하며 구축부터 운영 안정화·플랫폼화까지 직접 끌고 갈 수 있는 실행형 Core Engineer 역할입니다.

[해당 포지션으로 합류하신다면]
인프라 통합 핵심 과제들을 실제로 구축하고 운영하게 됩니다.
해당 포지션은 노타의 모델 경량화 플랫폼(NetsPresso)과 On-device AI 사업, Nota Vision Agent 등 사내 R&D 과제가 안정적으로 구동되는 기반을 직접 책임지는 자리입니다.
설계 구축 검증 운영 장애 복구 거버넌스까지의 Full Cycle을 직접 끌고 가며, 같은 문제가 두 번 발생하지 않도록 Runbook·Checklist·Operating Standard를 자산으로 남기는 일이 핵심입니다. 또한 R&D 사용자가 인프라팀에 매번 요청하지 않고도 셀프서비스로 자원을 쓸 수 있도록, 운영 가능한 시스템을 넘어 사용 가능한 플랫폼으로 추상화하는 일까지 책임집니다.
AI Workload는 일반 웹 서비스와 달리 대용량 GPU Memory, High-bandwidth Network, Multi-precision Inference, 6~12개월 주기의 Accelerator 세대 교체라는 고유한 제약을 갖습니다. 이와 같은 제약을 직접 다루며 운영 가능한 인프라를 만드는 과정에서, 폭넓고 깊이 있는 AI Platform & Systems Engineer 커리어를 확장할 수 있습니다.

팀의 주요 Mission:
• GPU Self Service Platform: Hypervisor 기반 사내 공용 GPU Self Service Platform의 운영 안정화 및 고도화 (Quota·RBAC·Audit Log·FinOps·Idle Reclaim)
• AI Infrastructure 확장: NVIDIA DGX Series Multi-node 도입·운영, NVA GPU Staging 구축, 신규 GPU/NPU 도입 및 IDC Power 인프라 운영·확장 대응
• Data Center Network 현대화: IDC 100G Backbone Cutover (Enterprise Switch 기반 vPC/MLAG Active-Active 구성), Branch Office Network 10/25/100G 고도화
• Distributed Storage: Ceph Cluster(S3/CephFS/RBD) 구축/운영, NAS Data Migration, Hypervisor 연동
• Security Compliance: ISO 27001 갱신, ISMS-P 기반 Cloud Data Management Platform, Vault Secret Lifecycle, SCA/SBOM Platform 운영
• Identity & Access: ZTNA(SASE 기반) + HA Bastion Platform (SSO 연동)
• Observability: Zabbix & Prometheus/Grafana Integrated Dashboard, GPU Showback/Chargeback Pipeline
• DevSecOps: Golden Image Factory, Container Image Build Standard CI/CD, Supply Chain Attack 차단 정책
• Local LLM Gateway: vLLM 기반 Local LLM Service Gateway 및 통합 Authentication/Logging
• Edge Device Farm: 다양한 타깃 디바이스 Asset Management·Remote Control Portal, 차세대 AI 검증용 Edge Hardware 독립 인프라

다루는 영역:
• GPU·AI Accelerator Platform: Datacenter-grade(A100/H100/H200/B200/B300, DGX System), Workstation-grade(RTX PRO Ada & Blackwell Series), Consumer-grade(RTX 20/30/40/50 Series), Edge AI Device(Jetson Orin·Thor Series, Automotive SoC, Non-CUDA NPU 등)
• AI Training·Serving Network/Storage: High-bandwidth Fabric(10~800G), RDMA for Distributed Training, Ceph base large volume Dataset·Model Artifact Storage
• Access Control·Security·Audit: ZTNA, Bastion, Secret Lifecycle, AI Model Asset·Training Data 보호 관점의 Security Architecture, ISO 27001 / ISMS-P Compliance
• Observability·DevSecOps: GPU Utilization, Model Serving Metrics, Training Job Tracking, Showback/Chargeback, Golden Image, Supply Chain Security
• Edge Device Lab: 다양한 타깃 디바이스의 Asset Management, Remote Operations, Benchmarking 환경

[팀의 메세지]
우리는 단순히 장비를 붙이고 운영하는 인력이 아니라, 회사의 AI 인프라 기반을 실제로 설계하고 구축하고 검증하고 운영할 수 있는 시스템 엔지니어를 찾고 있습니다. 복잡한 환경 속에서도 구조를 만들고, 기준을 정하고, 운영 가능한 상태로 정착시키는 일에 보람을 느끼는 분이라면 잘 맞는 포지션입니다.

주요업무

• GPU Self-service Platform 운영 안정화·고도화 및 AI Training·Inference Workload 자원 운영 정책 수립 (Scheduling, MIG Partitioning, Multi-tenancy, Quota, Idle Reclaim)
• Data Center·Branch Network 구축, 검증, 운영 — 10~800G High-bandwidth Backbone, RDMA/RoCE, vPC/MLAG Active-Active, Power·Rack Infrastructure 포함
• Ceph Distributed Storage(S3/CephFS/RBD) 구축·운영, Dataset·Model Artifact 공용 인프라(Training Data·Checkpoint·Model Registry Backend) 운영
• AI Asset Protection 관점의 Identity·Access Control·Security·Audit 체계 구축·운영 (Vault, Bastion, ZTNA), ISO 27001 / ISMS-P Compliance 대응
• Infrastructure Observability 구축 (Zabbix, Prometheus/Grafana, GPU Showback/Chargeback) 및 DevSecOps 운영 표준화 (Golden Image, CI/CD, SCA/SBOM)
• Local LLM Service Gateway 인프라 운영 (vLLM 기반 Model Serving, 통합 Authentication·Logging)
• Edge Device Farm 구축·운영 (Jetson Orin·Thor, Automotive SoC, 기타 NPU Board, Remote Control Portal 및 Asset Management)
• 운영 문서화(Documentation), Runbook, Validation System, Governance Process 정착

자격요건

다음 자격 요건중 4개 이상 경험자(경력 10년 이상)

• GPU 또는 AI Accelerator가 포함된 Server 환경의 구축·운영 경험 — NVIDIA Driver·CUDA Stack 관리, GPU 자원 분배, Thermal·Power·Rack 설계 등 AI Workload 특유의 운영 이슈를 다뤄본 경험
• Public Cloud Production 운영 경험 — AWS / GCP / Azure 중 하나 이상에서 IaaS·Network·IAM·Cost Management를 운영한 경험
• Hypervisor·Virtualization Platform 2개 이상 실무 운영 경험 — OpenNebula, VMware ESXi/vSphere, OpenShift, Proxmox VE, KVM/QEMU, Hyper-V, Nutanix AHV 등 (Live Migration·HA·Storage Integration·PCIe Passthrough/SR-IOV 포함)
• Datacenter-grade Network 구축·운영 경험 — 10~400G Backbone, vPC/MLAG, VLAN/VXLAN Design, Enterprise Switch 패밀리 중 하나 이상의 실무 경험
• Distributed Storage 또는 SDS 운영 경험 — Ceph(S3/CephFS/RBD), GlusterFS, MinIO, ZFS Cluster 등 중 하나 이상의 Production 운영 및 Data Migration·High Availability 설계 경험
• Kernel·Driver·Device Layer Debugging 경험 — Linux Troubleshooting을 넘어 GPU Driver 충돌, PCIe Topology Issue, NUMA·IRQ Tuning 등을 다뤄본 경험
• AI Workload성 장애 대응 경험 — Training Job Interruption, OOM, NCCL/Communication Library Issue, Distributed Training Synchronization Failure 등의 진단·복구
• AI Researcher·Engineer의 요구사항을 Infrastructure 언어로 번역해 풀어낸 경험 — "학습이 느려요" 를 NCCL Tuning·Storage IOPS·Network RDMA·CPU Bottleneck 중 어디인지 좁혀가는 능력
• 새로운 Accelerator 세대·AI Infrastructure Ecosystem 변화에 능동적으로 적응하며 운영 체계에 반영할 수 있는 분
• 해외 출장 및 여행에 결격 사유가 없는 분 (Vendor 미팅·해외 Data Center·R&D 파트너사 방문 등)

근무지역

서울 강남구 테헤란로 521, 파르나스타워 16층 Nota

[Infra] Senior System Engineer

포지션 상세

주요업무

자격요건

기술 스택 • 툴

태그

마감일

근무지역