노타(Nota)-[Infra] Senior System Engineer
노타(Nota)-[Infra] Senior System Engineer
노타(Nota)-[Infra] Senior System Engineer
노타(Nota)-[Infra] Senior System Engineer
노타(Nota)-[Infra] Senior System Engineer
노타(Nota)-[Infra] Senior System Engineer
노타(Nota)-[Infra] Senior System Engineer
노타(Nota)-[Infra] Senior System Engineer
1/8
노타(Nota)서울 강남구경력 10년 이상

[Infra] Senior System Engineer

포지션 상세

AI for everyone, everywhere
AI를 누구에게나, 어디에서나

노타는 AI 최적화 기술을 통해 AI의 일상화를 선도하는 기업입니다.

우리는 다양한 디바이스와 산업 전반에 걸쳐, 누구나 어디서나 AI를 사용할 수 있는 세상을 만들고자 합니다.

노타의 핵심 제품인 넷츠프레소(NetsPresso)는 하드웨어의 특성을 이해하는 AI 모델 최적화 플랫폼입니다. 또한, 차세대 영상 관제 솔루션 (NVA: Nota Vision Agent), 지능형 교통 시스템(ITS) 등 온디바이스 생성형 AI 솔루션을 통해 실제 산업 현장에서의 AI 실현 가능성을 넓히고 있습니다.

국내 스타트업으로는 최초로 삼성과 LG의 투자 유치 기록을 보유하고 있으며, 네이버 DS2F의 첫 투자 기업이기도 합니다. 최근에는 두바이 교통국과의 AI 솔루션 공급 계약을 체결하고, CB Insights AI 100에도 선정되는 등 글로벌 무대에서의 성과를 이어가고 있습니다.

노타는 빠르게 성장하는 조직과 함께할 다양한 직군의 노타 크루를 찾고 있습니다. 직급과 경력에 관계없이 누구나 동등한 입장에서 의견을 나눌 수 있는 수평적인 문화 속에서, 공동의 목표를 향해 자율적으로 일할 수 있는 분과 함께하고 싶습니다.

누구나, 어디에서나 AI의 가치를 경험할 수 있도록 하는 여정, 지금 노타에서 함께하세요.


[우리 ​팀을 ​소개합니다.]
Infra 팀은 노타의 AI Model Optimization & Compression Workload와 On-device AI Validation Pipeline을 떠받치는 기반 Infrastructure를 설계·구축하고 운영 가능한 형태로 정착시키는 역할을 담당합니다.
GPU Self-Service Platform, Data Center Backbone Network, Distributed Storage(Ceph), Local LLM Gateway, Edge Device Farm, Security & Access Control(ZTNA·Bastion·Vault), Observability, FinOps, DevSecOps 표준화까지 폭넓은 영역을 다루며, NetsPresso·NVA 플랫폼 및 사내 R&D 과제(On-device AI Agent 등)가 안정적으로 구동될 수 있도록 단순 유지보수가 아닌 실질적인 플랫폼 구축과 운영 표준화를 동시에 추진하고 있습니다.
이번 포지션은 시스템 엔지니어링 깊이(Hardware·OS·Network·Storage 레이어)와 플랫폼 빌더 역량(R&D 사용자가 셀프서비스로 쓸 내부 플랫폼을 제품처럼 만들고 운영)을 동시에 요구하는 자리입니다. AI Infrastructure 전반을 횡단하며 구축부터 운영 안정화·플랫폼화까지 직접 끌고 갈 수 있는 실행형 Core Engineer 역할입니다.


[해당 ​포지션으로 합류하신다면]
인프라 통합 핵심 과제들을 실제로 구축하고 운영하게 됩니다.
해당 포지션은 노타의 모델 경량화 플랫폼(NetsPresso)과 On-device AI 사업, Nota Vision Agent 등 사내 R&D 과제가 안정적으로 구동되는 기반을 직접 책임지는 자리입니다.
설계 구축 검증 운영 장애 복구 거버넌스까지의 Full Cycle을 직접 끌고 가며, 같은 문제가 두 번 발생하지 않도록 Runbook·Checklist·Operating Standard를 자산으로 남기는 일이 핵심입니다. 또한 R&D 사용자가 인프라팀에 매번 요청하지 않고도 셀프서비스로 자원을 쓸 수 있도록, 운영 가능한 시스템을 넘어 사용 가능한 플랫폼으로 추상화하는 일까지 책임집니다.
AI Workload는 일반 웹 서비스와 달리 대용량 GPU Memory, High-bandwidth Network, Multi-precision Inference, 6~12개월 주기의 Accelerator 세대 교체라는 고유한 제약을 갖습니다. 이와 같은 제약을 직접 다루며 운영 가능한 인프라를 만드는 과정에서, 폭넓고 깊이 있는 AI Platform & Systems Engineer 커리어를 확장할 수 있습니다.


팀의 주요 Mission:
• GPU Self Service Platform: Hypervisor 기반 사내 공용 GPU Self Service Platform의 운영 안정화 및 고도화 (Quota·RBAC·Audit Log·FinOps·Idle Reclaim)
• AI Infrastructure 확장: NVIDIA DGX Series Multi-node 도입·운영, NVA GPU Staging 구축, 신규 GPU/NPU 도입 및 IDC Power 인프라 운영·확장 대응
• Data Center Network 현대화: IDC 100G Backbone Cutover (Enterprise Switch 기반 vPC/MLAG Active-Active 구성), Branch Office Network 10/25/100G 고도화
• Distributed Storage: Ceph Cluster(S3/CephFS/RBD) 구축/운영, NAS Data Migration, Hypervisor 연동
• Security Compliance: ISO 27001 갱신, ISMS-P 기반 Cloud Data Management Platform, Vault Secret Lifecycle, SCA/SBOM Platform 운영
• Identity & Access: ZTNA(SASE 기반) + HA Bastion Platform (SSO 연동)
• Observability: Zabbix & Prometheus/Grafana Integrated Dashboard, GPU Showback/Chargeback Pipeline
• DevSecOps: Golden Image Factory, Container Image Build Standard CI/CD, Supply Chain Attack 차단 정책
• Local LLM Gateway: vLLM 기반 Local LLM Service Gateway 및 통합 Authentication/Logging
• Edge Device Farm: 다양한 타깃 디바이스 Asset Management·Remote Control Portal, 차세대 AI 검증용 Edge Hardware 독립 인프라


다루는 영역:
• GPU·AI Accelerator Platform: Datacenter-grade(A100/H100/H200/B200/B300, DGX System), Workstation-grade(RTX PRO Ada & Blackwell Series), Consumer-grade(RTX 20/30/40/50 Series), Edge AI Device(Jetson Orin·Thor Series, Automotive SoC, Non-CUDA NPU 등)
• AI Training·Serving Network/Storage: High-bandwidth Fabric(10~800G), RDMA for Distributed Training, Ceph base large volume Dataset·Model Artifact Storage
• Access Control·Security·Audit: ZTNA, Bastion, Secret Lifecycle, AI Model Asset·Training Data 보호 관점의 Security Architecture, ISO 27001 / ISMS-P Compliance
• Observability·DevSecOps: GPU Utilization, Model Serving Metrics, Training Job Tracking, Showback/Chargeback, Golden Image, Supply Chain Security
• Edge Device Lab: 다양한 타깃 디바이스의 Asset Management, Remote Operations, Benchmarking 환경


[팀의 메세지]
우리는 단순히 장비를 붙이고 운영하는 인력이 아니라, 회사의 AI 인프라 기반을 실제로 설계하고 구축하고 검증하고 운영할 수 있는 시스템 엔지니어를 찾고 있습니다. 복잡한 환경 속에서도 구조를 만들고, 기준을 정하고, 운영 가능한 상태로 정착시키는 일에 보람을 느끼는 분이라면 잘 맞는 포지션입니다.

주요업무

• GPU Self-service Platform 운영 안정화·고도화 및 AI Training·Inference Workload 자원 운영 정책 수립 (Scheduling, MIG Partitioning, Multi-tenancy, Quota, Idle Reclaim)
• Data Center·Branch Network 구축, 검증, 운영 — 10~800G High-bandwidth Backbone, RDMA/RoCE, vPC/MLAG Active-Active, Power·Rack Infrastructure 포함
• Ceph Distributed Storage(S3/CephFS/RBD) 구축·운영, Dataset·Model Artifact 공용 인프라(Training Data·Checkpoint·Model Registry Backend) 운영
• AI Asset Protection 관점의 Identity·Access Control·Security·Audit 체계 구축·운영 (Vault, Bastion, ZTNA), ISO 27001 / ISMS-P Compliance 대응
• Infrastructure Observability 구축 (Zabbix, Prometheus/Grafana, GPU Showback/Chargeback) 및 DevSecOps 운영 표준화 (Golden Image, CI/CD, SCA/SBOM)
• Local LLM Service Gateway 인프라 운영 (vLLM 기반 Model Serving, 통합 Authentication·Logging)
• Edge Device Farm 구축·운영 (Jetson Orin·Thor, Automotive SoC, 기타 NPU Board, Remote Control Portal 및 Asset Management)
• 운영 문서화(Documentation), Runbook, Validation System, Governance Process 정착

자격요건

다음 자격 요건중 4개 이상 경험자(경력 10년 이상)

• GPU 또는 AI Accelerator가 포함된 Server 환경의 구축·운영 경험 — NVIDIA Driver·CUDA Stack 관리, GPU 자원 분배, Thermal·Power·Rack 설계 등 AI Workload 특유의 운영 이슈를 다뤄본 경험
• Public Cloud Production 운영 경험 — AWS / GCP / Azure 중 하나 이상에서 IaaS·Network·IAM·Cost Management를 운영한 경험
• Hypervisor·Virtualization Platform 2개 이상 실무 운영 경험 — OpenNebula, VMware ESXi/vSphere, OpenShift, Proxmox VE, KVM/QEMU, Hyper-V, Nutanix AHV 등 (Live Migration·HA·Storage Integration·PCIe Passthrough/SR-IOV 포함)
• Datacenter-grade Network 구축·운영 경험 — 10~400G Backbone, vPC/MLAG, VLAN/VXLAN Design, Enterprise Switch 패밀리 중 하나 이상의 실무 경험
• Distributed Storage 또는 SDS 운영 경험 — Ceph(S3/CephFS/RBD), GlusterFS, MinIO, ZFS Cluster 등 중 하나 이상의 Production 운영 및 Data Migration·High Availability 설계 경험
• Kernel·Driver·Device Layer Debugging 경험 — Linux Troubleshooting을 넘어 GPU Driver 충돌, PCIe Topology Issue, NUMA·IRQ Tuning 등을 다뤄본 경험
• AI Workload성 장애 대응 경험 — Training Job Interruption, OOM, NCCL/Communication Library Issue, Distributed Training Synchronization Failure 등의 진단·복구
• AI Researcher·Engineer의 요구사항을 Infrastructure 언어로 번역해 풀어낸 경험 — "학습이 느려요" 를 NCCL Tuning·Storage IOPS·Network RDMA·CPU Bottleneck 중 어디인지 좁혀가는 능력
• 새로운 Accelerator 세대·AI Infrastructure Ecosystem 변화에 능동적으로 적응하며 운영 체계에 반영할 수 있는 분
• 해외 출장 및 여행에 결격 사유가 없는 분 (Vendor 미팅·해외 Data Center·R&D 파트너사 방문 등)

기술 스택 • 툴

태그

마감일

상시채용

근무지역

서울 강남구 테헤란로 521, 파르나스타워 16층 Nota
본 채용정보는 원티드랩의 동의없이 무단전재, 재배포, 재가공할 수 없으며, 구직활동 이외의 용도로 사용할 수 없습니다.
본 채용 정보는 에서 제공한 자료를 바탕으로 원티드랩에서 표현을 수정하고 이의 배열 및 구성을 편집하여 완성한 원티드랩의 저작자산이자 영업자산입니다. 본 정보 및 데이터베이스의 일부 내지는 전부에 대하여 원티드랩의 동의 없이 무단전재 또는 재배포, 재가공 및 크롤링할 수 없으며, 게재된 채용기업의 정보는 구직자의 구직활동 이외의 용도로 사용될 수 없습니다. 원티드랩은 에서 게재한 자료에 대한 오류나 그 밖에 원티드랩이 가공하지 않은 정보의 내용상 문제에 대하여 어떠한 보장도 하지 않으며, 사용자가 이를 신뢰하여 취한 조치에 대해 책임을 지지 않습니다.
<저작권자 (주)원티드랩. 무단전재-재배포금지>