Cloud Infrastructure Engineer
부문
Korea
직군
Tech/Product
경력사항
경력 3년 이상
고용형태
정규직
근무지
서울 오피스서울특별시 강남구 선릉로 561

리얼월드(RLWRLD)는 로봇이 ​인간처럼 ​세상을 ​인식하고 사고하며 ​행동할 수 있게 만드는 ​로보틱스 ​파운데이션 모델(Robotics ​Foundation Model)을 개발하는 ​Physical AI ​선도 ​기업입니다.


AI와 로보틱스 ​분야에서 ​축적한 ​깊은 연구 역량, ​일본·한국 ​및 글로벌 산업 ​파트너와의 ​긴밀한 ​데이터 협력 네트워크를 ​기반으로, 고자유도 ​로봇 ​손의 정밀한 ​조작을 가능케 ​하는 ​RFM(Robotics Foundation Model)을 ​빠르게 발전시키고 ​있습니다. 또한, 글로벌 유수의 연구자 그룹 및 로봇·센서 솔루션 파트너들과의 협력을 통해 제조, 물류, 서비스 등 다양한 산업 현장에서 실질적인 시장 적용이 가능한 모델을 개발하고 있습니다.


2024년 말, 국내외 유수의 VC 및 대기업으로부터 약 210억 원의 시드 투자를 유치하며 대한민국 스타트업 역사상 최대 규모의 시드 투자를 기록한 리얼월드에는 AI·로보틱스 기술과 비즈니스 분야에서 혁신을 선도하고자 하는 뛰어난 인재들이 속속 합류하고 있습니다.




[언론 보도]

https://n.news.naver.com/article/020/0003628474

https://techcrunch.com/2025/04/14/rlwrld-raises-14-4m-to-build-foundation-model-for-robotics/

https://www.nikkei.com/article/DGXZQOUC1464S0U5A410C2000000/

https://n.news.naver.com/mnews/article/092/0002378605?sid=105



조직 소개

RLWRLD의 프로덕트 조직은 RLWRLD의 모든 프로덕트를 개발하는 부서로, 기획·개발·연구 전반을 책임지고 있습니다.


주요 역할로는 RLWRLD의 근간이 되는 Robotics Foundation Model 개발을 비롯해 해당 모델을 API/SDK 형태로 제공하는 일까지 포함합니다. 이와 더불어 데이터 수집·정제·가공을 위한 텔레오퍼레이션 및 데이터 파이프라인, 모델 학습을 위한 Training System, 모델의 기능과 성능을 검증하는 Benchmark, 로봇을 실제로 제어하는 Robot Control System, 그리고 GPU 등 인프라 자원을 균형 있게 제공하는 Infra System까지 폭넓은 프로덕트를 개발하고 있습니다.


조직은 Research Engineer와 Software Engineer 등으로 구성되어 있으며, 모델 개발과 소프트웨어 개발 중 어느 영역에 더 집중하느냐의 차이만 있을 뿐 각 역할 간의 경계는 비교적 유연하게 운영되고 있습니다. 특히 Robotics Foundation Model 개발을 위해 Academy Researcher들과 긴밀하게 협업하며 공동 연구를 진행하고, Robot Hands 및 Sensor 개발 파트너들과의 협업은 물론, 사내에서는 Business Developer와도 밀접하게 협력하고 있습니다.



포지션명

Cloud Infrastructure Engineer



포지션 개요

우리는 끊임없이 성장하는 로봇 지능을 뒷받침하기 위해, 대규모 GPU 클러스터와 데이터 파이프라인을 극한으로 최적화할 수 있는 인재를 찾고 있습니다.


이 역할은 수백 장의 A100/H100 GPU와 PB급 스토리지로 구성된 HPC 환경을 안정적으로 운영하고, 학습 데이터의 흐름에서 발생하는 병목을 해결하여 연구 효율을 극대화하는 핵심 업무를 담당합니다.


최고의 인프라 기술로 Physical AI 모델의 학습 속도를 가속화할 엔지니어 분들을 기다립니다.



주요 업무

  • Large-Scale GPU Cluster Management
  • Multi-Cloud/Hybrid Cloud 운영: AWS, Kakao Cloud, Azure, SK Lambda 등 다양한 클라우드 환경에서 대규모 GPU 클러스터(SLURM, Kubernetes 등) 구축 및 통합 관리
  • 고가용성 아키텍처 설계: Login Node HA, Auto-scaling, GPU Failure Auto-DRAIN 등 장애를 선제적으로 방지하고 자동 복구하는 시스템 구축
  • 리소스 최적화: Job Scheduling 정책(MaxTime, Priority, Fair Share) 수립 및 GPU 가동률(Utilization) 극대화
  • ML Pipeline Optimization & Acceleration
  • I/O 병목 분석 및 해결: 대용량 데이터셋 학습 시 발생하는 스토리지(NFS, Lustre, GPUDirect Storage) 및 DataLoader 단계의 병목 현상 프로파일링 및 튜닝
  • Distributed Training Support: Multi-Node 학습 환경에서의 네트워크(Infiniband, RoCE) 최적화 및 NCCL 통신 효율 개선
  • DevOps/MLOps: GitHub Actions 등을 활용한 인프라 변경 사항(IaC) 및 학습 환경 배포 자동화
  • Monitoring & Reliability Engineering
  • 선제적 장애 대응: GPU 온도, 메모리 오류(ECC Error), 네트워크 지연 등을 실시간 모니터링하고, 장애 발생 전 징후를 탐지하여 조치하는 알림 시스템 구축
  • 가시성 확보: Grafana, Prometheus 등을 활용한 클러스터 리소스 현황 및 사용자별 사용량 대시보드 개발




자격 요건

  • Infrastructure Engineering 경력 3년 이상
  • 클러스터 관리 경험: SLURM, Kubernetes(EKS/AKS/GKE) 등 대규모 컴퓨팅 클러스터 운영 경험
  • Cloud Platform 능숙: AWS, GCP, Azure 등 퍼블릭 클라우드 환경에서의 네트워킹(VPC, Subnet), 보안(IAM), 스토리지 설계 경험
  • Linux & Scripting: Linux 시스템 커널 튜닝 및 Shell Scripting, Python을 활용한 자동화 도구 개발 능력



우대 사항

  • High Performance Computing (HPC) & AI
  • GPU 클러스터 운영 심화: InfiniBand, NVLink, RDMA 등 고속 인터커넥트 설정 및 트러블슈팅 경험
  • ML Framework 이해: PyTorch, TensorFlow 등의 데이터 로딩 메커니즘을 이해하고 시스템 레벨에서 최적화해 본 경험
  • Parallel File System: Lustre, GPFS, WekaIO 등 고성능 분산 파일 시스템 운영 경험
  • MLOps & Workflow Orchestration
  • Workflow Management: Prefect, Airflow, Kubeflow Pipelines 등을 활용하여 복잡한 데이터 전처리 및 학습 워크플로우를 설계하고 운영해 본 경험
  • Experiment Tracking: WandB, MLflow 등 실험 관리 도구와 인프라 연동 경험
  • Model Serving: Triton Inference Server, TorchServe 등을 활용한 모델 배포 및 최적화 경험
  • Problem Solving & Optimization
  • 병목 프로파일링: Nsight Systems, PyTorch Profiler 등을 사용하여 시스템 전구간(Storage → CPU/RAM → GPU)의 성능 저하 원인을 규명해 본 경험
  • 비용 최적화: Spot Instance 활용, 예약 인스턴스 전략 수립 등을 통해 클라우드 비용을 효율화한 경험



근무 조건

  • 근무장소 : 서울 강남구 선릉로 561 (역삼동, 루비나빌딩)
  • 근무기간 : 정규직
  • 수습 기간 안내
  • 입사 시 3개월의 수습 기간이 적용됩니다.
  • 수습 기간 동안 근무 태도와 역량 평가를 진행하며, 평가 결과에 따라 수습 기간이 연장되거나 채용이 취소될 수 있습니다.



지원 방법

  • 제출서류 :
  • 이력서 (한글 또는 영문)
  • (선택) 본인의 역량을 보여줄 수 있는 포트폴리오, 연구자료, 프로젝트 자료 등 추가 제출 가능
  • 지원 마감: 상시 모집 (채용 시 마감)



전형 절차

  • 서류 전형 > 1차 인터뷰 > 2차 인터뷰 > 3차 인터뷰 > 최종 합격
  • 서류 전형 합격 시 개별적으로 연락이 진행될 예정입니다.
  • 절차 상 필요한 경우 커피챗·코딩테스트가 포함될 수 있습니다.



근무 환경 및 지원

  • 유연근무제: 출퇴근 시간을 자율적으로 조정해 각자의 리듬에 맞게 일합니다.
  • 업무 장비·소프트웨어 지원: 직무에 맞는 업무 장비와 필요한 소프트웨어를 지원합니다.
  • 기본 편의시설 운영: 사내 스낵바와 커피 머신을 운영하고 있습니다.
  • 명절 및 생일 선물: 명절과 생일에는 소정의 선물을 전합니다.
  • 건강검진 지원: 정기적인 건강검진으로 건강 관리를 돕습니다.
공유하기
Cloud Infrastructure Engineer

리얼월드(RLWRLD)는 로봇이 ​인간처럼 ​세상을 ​인식하고 사고하며 ​행동할 수 있게 만드는 ​로보틱스 ​파운데이션 모델(Robotics ​Foundation Model)을 개발하는 ​Physical AI ​선도 ​기업입니다.


AI와 로보틱스 ​분야에서 ​축적한 ​깊은 연구 역량, ​일본·한국 ​및 글로벌 산업 ​파트너와의 ​긴밀한 ​데이터 협력 네트워크를 ​기반으로, 고자유도 ​로봇 ​손의 정밀한 ​조작을 가능케 ​하는 ​RFM(Robotics Foundation Model)을 ​빠르게 발전시키고 ​있습니다. 또한, 글로벌 유수의 연구자 그룹 및 로봇·센서 솔루션 파트너들과의 협력을 통해 제조, 물류, 서비스 등 다양한 산업 현장에서 실질적인 시장 적용이 가능한 모델을 개발하고 있습니다.


2024년 말, 국내외 유수의 VC 및 대기업으로부터 약 210억 원의 시드 투자를 유치하며 대한민국 스타트업 역사상 최대 규모의 시드 투자를 기록한 리얼월드에는 AI·로보틱스 기술과 비즈니스 분야에서 혁신을 선도하고자 하는 뛰어난 인재들이 속속 합류하고 있습니다.




[언론 보도]

https://n.news.naver.com/article/020/0003628474

https://techcrunch.com/2025/04/14/rlwrld-raises-14-4m-to-build-foundation-model-for-robotics/

https://www.nikkei.com/article/DGXZQOUC1464S0U5A410C2000000/

https://n.news.naver.com/mnews/article/092/0002378605?sid=105



조직 소개

RLWRLD의 프로덕트 조직은 RLWRLD의 모든 프로덕트를 개발하는 부서로, 기획·개발·연구 전반을 책임지고 있습니다.


주요 역할로는 RLWRLD의 근간이 되는 Robotics Foundation Model 개발을 비롯해 해당 모델을 API/SDK 형태로 제공하는 일까지 포함합니다. 이와 더불어 데이터 수집·정제·가공을 위한 텔레오퍼레이션 및 데이터 파이프라인, 모델 학습을 위한 Training System, 모델의 기능과 성능을 검증하는 Benchmark, 로봇을 실제로 제어하는 Robot Control System, 그리고 GPU 등 인프라 자원을 균형 있게 제공하는 Infra System까지 폭넓은 프로덕트를 개발하고 있습니다.


조직은 Research Engineer와 Software Engineer 등으로 구성되어 있으며, 모델 개발과 소프트웨어 개발 중 어느 영역에 더 집중하느냐의 차이만 있을 뿐 각 역할 간의 경계는 비교적 유연하게 운영되고 있습니다. 특히 Robotics Foundation Model 개발을 위해 Academy Researcher들과 긴밀하게 협업하며 공동 연구를 진행하고, Robot Hands 및 Sensor 개발 파트너들과의 협업은 물론, 사내에서는 Business Developer와도 밀접하게 협력하고 있습니다.



포지션명

Cloud Infrastructure Engineer



포지션 개요

우리는 끊임없이 성장하는 로봇 지능을 뒷받침하기 위해, 대규모 GPU 클러스터와 데이터 파이프라인을 극한으로 최적화할 수 있는 인재를 찾고 있습니다.


이 역할은 수백 장의 A100/H100 GPU와 PB급 스토리지로 구성된 HPC 환경을 안정적으로 운영하고, 학습 데이터의 흐름에서 발생하는 병목을 해결하여 연구 효율을 극대화하는 핵심 업무를 담당합니다.


최고의 인프라 기술로 Physical AI 모델의 학습 속도를 가속화할 엔지니어 분들을 기다립니다.



주요 업무

  • Large-Scale GPU Cluster Management
  • Multi-Cloud/Hybrid Cloud 운영: AWS, Kakao Cloud, Azure, SK Lambda 등 다양한 클라우드 환경에서 대규모 GPU 클러스터(SLURM, Kubernetes 등) 구축 및 통합 관리
  • 고가용성 아키텍처 설계: Login Node HA, Auto-scaling, GPU Failure Auto-DRAIN 등 장애를 선제적으로 방지하고 자동 복구하는 시스템 구축
  • 리소스 최적화: Job Scheduling 정책(MaxTime, Priority, Fair Share) 수립 및 GPU 가동률(Utilization) 극대화
  • ML Pipeline Optimization & Acceleration
  • I/O 병목 분석 및 해결: 대용량 데이터셋 학습 시 발생하는 스토리지(NFS, Lustre, GPUDirect Storage) 및 DataLoader 단계의 병목 현상 프로파일링 및 튜닝
  • Distributed Training Support: Multi-Node 학습 환경에서의 네트워크(Infiniband, RoCE) 최적화 및 NCCL 통신 효율 개선
  • DevOps/MLOps: GitHub Actions 등을 활용한 인프라 변경 사항(IaC) 및 학습 환경 배포 자동화
  • Monitoring & Reliability Engineering
  • 선제적 장애 대응: GPU 온도, 메모리 오류(ECC Error), 네트워크 지연 등을 실시간 모니터링하고, 장애 발생 전 징후를 탐지하여 조치하는 알림 시스템 구축
  • 가시성 확보: Grafana, Prometheus 등을 활용한 클러스터 리소스 현황 및 사용자별 사용량 대시보드 개발




자격 요건

  • Infrastructure Engineering 경력 3년 이상
  • 클러스터 관리 경험: SLURM, Kubernetes(EKS/AKS/GKE) 등 대규모 컴퓨팅 클러스터 운영 경험
  • Cloud Platform 능숙: AWS, GCP, Azure 등 퍼블릭 클라우드 환경에서의 네트워킹(VPC, Subnet), 보안(IAM), 스토리지 설계 경험
  • Linux & Scripting: Linux 시스템 커널 튜닝 및 Shell Scripting, Python을 활용한 자동화 도구 개발 능력



우대 사항

  • High Performance Computing (HPC) & AI
  • GPU 클러스터 운영 심화: InfiniBand, NVLink, RDMA 등 고속 인터커넥트 설정 및 트러블슈팅 경험
  • ML Framework 이해: PyTorch, TensorFlow 등의 데이터 로딩 메커니즘을 이해하고 시스템 레벨에서 최적화해 본 경험
  • Parallel File System: Lustre, GPFS, WekaIO 등 고성능 분산 파일 시스템 운영 경험
  • MLOps & Workflow Orchestration
  • Workflow Management: Prefect, Airflow, Kubeflow Pipelines 등을 활용하여 복잡한 데이터 전처리 및 학습 워크플로우를 설계하고 운영해 본 경험
  • Experiment Tracking: WandB, MLflow 등 실험 관리 도구와 인프라 연동 경험
  • Model Serving: Triton Inference Server, TorchServe 등을 활용한 모델 배포 및 최적화 경험
  • Problem Solving & Optimization
  • 병목 프로파일링: Nsight Systems, PyTorch Profiler 등을 사용하여 시스템 전구간(Storage → CPU/RAM → GPU)의 성능 저하 원인을 규명해 본 경험
  • 비용 최적화: Spot Instance 활용, 예약 인스턴스 전략 수립 등을 통해 클라우드 비용을 효율화한 경험



근무 조건

  • 근무장소 : 서울 강남구 선릉로 561 (역삼동, 루비나빌딩)
  • 근무기간 : 정규직
  • 수습 기간 안내
  • 입사 시 3개월의 수습 기간이 적용됩니다.
  • 수습 기간 동안 근무 태도와 역량 평가를 진행하며, 평가 결과에 따라 수습 기간이 연장되거나 채용이 취소될 수 있습니다.



지원 방법

  • 제출서류 :
  • 이력서 (한글 또는 영문)
  • (선택) 본인의 역량을 보여줄 수 있는 포트폴리오, 연구자료, 프로젝트 자료 등 추가 제출 가능
  • 지원 마감: 상시 모집 (채용 시 마감)



전형 절차

  • 서류 전형 > 1차 인터뷰 > 2차 인터뷰 > 3차 인터뷰 > 최종 합격
  • 서류 전형 합격 시 개별적으로 연락이 진행될 예정입니다.
  • 절차 상 필요한 경우 커피챗·코딩테스트가 포함될 수 있습니다.



근무 환경 및 지원

  • 유연근무제: 출퇴근 시간을 자율적으로 조정해 각자의 리듬에 맞게 일합니다.
  • 업무 장비·소프트웨어 지원: 직무에 맞는 업무 장비와 필요한 소프트웨어를 지원합니다.
  • 기본 편의시설 운영: 사내 스낵바와 커피 머신을 운영하고 있습니다.
  • 명절 및 생일 선물: 명절과 생일에는 소정의 선물을 전합니다.
  • 건강검진 지원: 정기적인 건강검진으로 건강 관리를 돕습니다.