Reinforcement Learning Research Engineer
yDeVUY
Korea
cd8TZH
Tech/Product
/u5j0s
hTGops
DvUa5s
W+7+Ss
hqff73
서울 오피스서울특별시 강남구 선릉로 561

리얼월드(RLWRLD)는 로봇이 ​인간처럼 ​세상을 ​인식하고 사고하며 ​행동할 수 있게 만드는 ​로보틱스 ​파운데이션 모델(Robotics ​Foundation Model)을 개발하는 ​Physical AI ​선도 ​기업입니다.


AI와 로보틱스 ​분야에서 ​축적한 ​깊은 연구 역량, ​일본·한국 ​및 글로벌 산업 ​파트너와의 ​긴밀한 ​데이터 협력 네트워크를 ​기반으로, 고자유도 ​로봇 ​손의 정밀한 ​조작을 가능케 ​하는 ​RFM(Robotics Foundation Model)을 ​빠르게 발전시키고 ​있습니다. 또한, 글로벌 유수의 연구자 그룹 및 로봇·센서 솔루션 파트너들과의 협력을 통해 제조, 물류, 서비스 등 다양한 산업 현장에서 실질적인 시장 적용이 가능한 모델을 개발하고 있습니다.


2024년 말, 국내외 유수의 VC 및 대기업으로부터 약 210억 원의 시드 투자를 유치하며 대한민국 스타트업 역사상 최대 규모의 시드 투자를 기록한 리얼월드에는 AI·로보틱스 기술과 비즈니스 분야에서 혁신을 선도하고자 하는 뛰어난 인재들이 속속 합류하고 있습니다.




[언론 보도]

https://n.news.naver.com/article/020/0003628474

https://techcrunch.com/2025/04/14/rlwrld-raises-14-4m-to-build-foundation-model-for-robotics/

https://www.nikkei.com/article/DGXZQOUC1464S0U5A410C2000000/

https://n.news.naver.com/mnews/article/092/0002378605?sid=105



조직 소개

RLWRLD의 프로덕트 조직은 RLWRLD의 모든 프로덕트를 개발하는 부서로, 기획·개발·연구 전반을 책임지고 있습니다.


주요 역할로는 RLWRLD의 근간이 되는 Robotics Foundation Model 개발을 비롯해 해당 모델을 API/SDK 형태로 제공하는 일까지 포함합니다. 이와 더불어 데이터 수집·정제·가공을 위한 텔레오퍼레이션 및 데이터 파이프라인, 모델 학습을 위한 Training System, 모델의 기능과 성능을 검증하는 Benchmark, 로봇을 실제로 제어하는 Robot Control System, 그리고 GPU 등 인프라 자원을 균형 있게 제공하는 Infra System까지 폭넓은 프로덕트를 개발하고 있습니다.


조직은 Research Engineer와 Software Engineer 등으로 구성되어 있으며, 모델 개발과 소프트웨어 개발 중 어느 영역에 더 집중하느냐의 차이만 있을 뿐 각 역할 간의 경계는 비교적 유연하게 운영되고 있습니다. 특히 Robotics Foundation Model 개발을 위해 Academy Researcher들과 긴밀하게 협업하며 공동 연구를 진행하고, Robot Hands 및 Sensor 개발 파트너들과의 협업은 물론, 사내에서는 Business Developer와도 밀접하게 협력하고 있습니다.



포지션명

Reinforcement Learning Research Engineer



포지션 개요

우리는 시뮬레이션을 넘어, 실제 산업 현장의 복잡성을 물리적 로봇에서 직접 해결하는 Real-world Robot Learning 혁신가를 찾고 있습니다.


이 역할은 실험실 수준의 알고리즘을 넘어, 대규모 데이터를 활용한 Offline-to-Online RL 전략을 통해 실로봇 환경에서 정책(Policy)을 지속적으로 고도화하는 핵심 과제를 수행합니다. 특히 시각, 언어, 동작이 통합된 VLA(Vision-Language-Action) 기반의 거대 End-to-End 모델을 설계하고, 이를 실제 로봇 시스템에 맞춰 최적화하여 현장에서 즉시 작동하는 수준의 지능형 제어 모델을 구현합니다.


단순한 아키텍처 설계를 넘어, 실제 환경의 불확실성을 데이터로 돌파하며 차세대 로보틱스의 High-performance Control Policy를 완성할 인재의 합류를 기다립니다.




주요 업무

  • VLA 기반 고성능 제어 정책(Policy) 개발
  • Generative Model 기반 RL 연구: Diffusion, Flow Matching, Auto-regressive 등 고차원 표현력을 가진 모델에 최적화된 강화학습 알고리즘 설계 및 구현
  • Imitation Learning의 한계 돌파: 모방 학습만으로는 달성하기 어려운 복잡한 행동(Complex Behavior)과 예외 상황 대응력을 확보하기 위한 효율적인 RL 기법 연구
  • 실전형 Offline-to-Online RL 파이프라인 구축
  • Data-efficient RL: 대규모 오프라인 데이터셋을 효과적으로 활용하고, 최소한의 실로봇 상호작용으로 성능을 극대화하는 Sample-efficient Offline-to-Online 알고리즘 개발
  • Scalable Pipeline: 연구 단계를 넘어 실제 서비스 모델에 RL을 지속적으로 적용하고 개선할 수 있는 강력한 학습/배포 파이프라인 설계
  • 멀티모달 기반의 정교한 Reward Modeling
  • Complex Task Reward Design: 멀티모달(Vision, Tactile, Language 등) 데이터를 활용하여 복잡한 Manipulation Task의 성공 여부와 진행도를 정교하게 평가하는 Reward Model 연구
  • Human-in-the-loop & Scalable Supervision: 실제 산업 현장에서의 피드백을 학습 신호로 변환하는 메커니즘 개발
  • 실로봇 중심의 성능 검증 및 교차 직군 협업
  • Real-world Validation: 개발된 모델을 실제 로봇 매니퓰레이터에 탑재하여 성능 데이터를 분석하고, 현장 적용성을 최우선으로 검증
  • Cross-functional Collaboration: 시스템 엔지니어, 하드웨어 엔지니어와 긴밀히 협업하여 알고리즘이 로봇 시스템 전체의 최적 성능(Latency, Stability 등)으로 이어지도록 통합 구현



자격 요건

  • Deep Learning & Generative Model에 대한 깊은 이해
  • Transformer, Diffusion, Flow Matching 등 최신 아키텍처를 이해하고, 이를 로봇 제어 목적에 맞게 구현 및 최적화할 수 있는 역량
  • VLA 또는 대규모 VLM 연구/개발 경험
  • 멀티모달 데이터를 결합하여 의사결정 및 제어 Policy를 설계하고, 대규모 모델을 로봇 태스크에 적용해 본 경험
  • 강화학습(RL) 및 모방 학습(IL) 실무 역량
  • Offline-to-Online RL, Offline RL(CQL, IQL 등) 알고리즘에 대한 깊은 이해와 실효성 있는 적용 경험
  • Behavior Cloning을 넘어선 고급 모방 학습 기법 및 고차원 Action Space에서의 Policy 최적화 경험
  • 언어 및 개발 환경 숙련도
  • Python(PyTorch/JAX) 기반의 능숙한 모델링 및 실제 시스템 통합을 위한 프로그래밍 역량



우대 사항

  • Real-world Robot Learning 프로젝트 경험
  • 시뮬레이션에 의존하지 않고 실제 로봇 매니퓰레이터를 활용하여 End-to-End 제어 모델을 성공적으로 배포해 본 경험
  • 로보틱스 특화 수학 및 최적화 지식
  • 동역학(Dynamics), 확률 이론, 비볼록 최적화(Non-convex Optimization) 등 강화학습의 수학적 기초에 대한 깊은 통찰
  • 최정상급 학술 역량
  • NeurIPS, ICML, ICLR, CVPR, RSS, ICRA, IROS 등 AI 및 로보틱스 Top-tier 학회에 제1저자로 논문을 게재했거나 발표한 경험
  • 대규모 모델 학습 및 인프라 활용 능력
  • GPU 클러스터 환경에서 대규모 파라미터를 가진 모델의 분산 학습(Multi-GPU, Multi-node) 및 최적화 경험
  • MLOps 및 데이터 엔지니어링 역량
  • 실로봇에서 생성되는 대규모 상호작용 데이터를 체계적으로 관리하고 학습에 반영하기 위한 파이프라인 구축 경험




근무 조건

  • 근무장소 : 서울 강남구 선릉로 561 (역삼동, 루비나빌딩)
  • 근무기간 : 정규직
  • 수습 기간 안내
  • 입사 시 3개월의 수습 기간이 적용됩니다.
  • 수습 기간 동안 근무 태도와 역량 평가를 진행하며, 평가 결과에 따라 수습 기간이 연장되거나 채용이 취소될 수 있습니다.



지원 방법

  • 제출서류 :
  • 이력서 (한글 또는 영문)
  • (선택) 본인의 역량을 보여줄 수 있는 포트폴리오, 연구자료, 프로젝트 자료 등 추가 제출 가능
  • 지원 마감: 상시 모집 (채용 시 마감)



전형 절차

  • 서류 전형 > 1차 인터뷰 > 2차 인터뷰 > 3차 인터뷰 > 최종 합격
  • 서류 전형 합격 시 개별적으로 연락이 진행될 예정입니다.
  • 절차 상 필요한 경우 커피챗·코딩테스트가 포함될 수 있습니다.



근무 환경 및 지원

  • 유연근무제: 출퇴근 시간을 자율적으로 조정해 각자의 리듬에 맞게 일합니다.
  • 업무 장비·소프트웨어 지원: 직무에 맞는 업무 장비와 필요한 소프트웨어를 지원합니다.
  • 기본 편의시설 운영: 사내 스낵바와 커피 머신을 운영하고 있습니다.
  • 명절 및 생일 선물: 명절과 생일에는 소정의 선물을 전합니다.
  • 건강검진 지원: 정기적인 건강검진으로 건강 관리를 돕습니다.
+uEs0S
Reinforcement Learning Research Engineer

리얼월드(RLWRLD)는 로봇이 ​인간처럼 ​세상을 ​인식하고 사고하며 ​행동할 수 있게 만드는 ​로보틱스 ​파운데이션 모델(Robotics ​Foundation Model)을 개발하는 ​Physical AI ​선도 ​기업입니다.


AI와 로보틱스 ​분야에서 ​축적한 ​깊은 연구 역량, ​일본·한국 ​및 글로벌 산업 ​파트너와의 ​긴밀한 ​데이터 협력 네트워크를 ​기반으로, 고자유도 ​로봇 ​손의 정밀한 ​조작을 가능케 ​하는 ​RFM(Robotics Foundation Model)을 ​빠르게 발전시키고 ​있습니다. 또한, 글로벌 유수의 연구자 그룹 및 로봇·센서 솔루션 파트너들과의 협력을 통해 제조, 물류, 서비스 등 다양한 산업 현장에서 실질적인 시장 적용이 가능한 모델을 개발하고 있습니다.


2024년 말, 국내외 유수의 VC 및 대기업으로부터 약 210억 원의 시드 투자를 유치하며 대한민국 스타트업 역사상 최대 규모의 시드 투자를 기록한 리얼월드에는 AI·로보틱스 기술과 비즈니스 분야에서 혁신을 선도하고자 하는 뛰어난 인재들이 속속 합류하고 있습니다.




[언론 보도]

https://n.news.naver.com/article/020/0003628474

https://techcrunch.com/2025/04/14/rlwrld-raises-14-4m-to-build-foundation-model-for-robotics/

https://www.nikkei.com/article/DGXZQOUC1464S0U5A410C2000000/

https://n.news.naver.com/mnews/article/092/0002378605?sid=105



조직 소개

RLWRLD의 프로덕트 조직은 RLWRLD의 모든 프로덕트를 개발하는 부서로, 기획·개발·연구 전반을 책임지고 있습니다.


주요 역할로는 RLWRLD의 근간이 되는 Robotics Foundation Model 개발을 비롯해 해당 모델을 API/SDK 형태로 제공하는 일까지 포함합니다. 이와 더불어 데이터 수집·정제·가공을 위한 텔레오퍼레이션 및 데이터 파이프라인, 모델 학습을 위한 Training System, 모델의 기능과 성능을 검증하는 Benchmark, 로봇을 실제로 제어하는 Robot Control System, 그리고 GPU 등 인프라 자원을 균형 있게 제공하는 Infra System까지 폭넓은 프로덕트를 개발하고 있습니다.


조직은 Research Engineer와 Software Engineer 등으로 구성되어 있으며, 모델 개발과 소프트웨어 개발 중 어느 영역에 더 집중하느냐의 차이만 있을 뿐 각 역할 간의 경계는 비교적 유연하게 운영되고 있습니다. 특히 Robotics Foundation Model 개발을 위해 Academy Researcher들과 긴밀하게 협업하며 공동 연구를 진행하고, Robot Hands 및 Sensor 개발 파트너들과의 협업은 물론, 사내에서는 Business Developer와도 밀접하게 협력하고 있습니다.



포지션명

Reinforcement Learning Research Engineer



포지션 개요

우리는 시뮬레이션을 넘어, 실제 산업 현장의 복잡성을 물리적 로봇에서 직접 해결하는 Real-world Robot Learning 혁신가를 찾고 있습니다.


이 역할은 실험실 수준의 알고리즘을 넘어, 대규모 데이터를 활용한 Offline-to-Online RL 전략을 통해 실로봇 환경에서 정책(Policy)을 지속적으로 고도화하는 핵심 과제를 수행합니다. 특히 시각, 언어, 동작이 통합된 VLA(Vision-Language-Action) 기반의 거대 End-to-End 모델을 설계하고, 이를 실제 로봇 시스템에 맞춰 최적화하여 현장에서 즉시 작동하는 수준의 지능형 제어 모델을 구현합니다.


단순한 아키텍처 설계를 넘어, 실제 환경의 불확실성을 데이터로 돌파하며 차세대 로보틱스의 High-performance Control Policy를 완성할 인재의 합류를 기다립니다.




주요 업무

  • VLA 기반 고성능 제어 정책(Policy) 개발
  • Generative Model 기반 RL 연구: Diffusion, Flow Matching, Auto-regressive 등 고차원 표현력을 가진 모델에 최적화된 강화학습 알고리즘 설계 및 구현
  • Imitation Learning의 한계 돌파: 모방 학습만으로는 달성하기 어려운 복잡한 행동(Complex Behavior)과 예외 상황 대응력을 확보하기 위한 효율적인 RL 기법 연구
  • 실전형 Offline-to-Online RL 파이프라인 구축
  • Data-efficient RL: 대규모 오프라인 데이터셋을 효과적으로 활용하고, 최소한의 실로봇 상호작용으로 성능을 극대화하는 Sample-efficient Offline-to-Online 알고리즘 개발
  • Scalable Pipeline: 연구 단계를 넘어 실제 서비스 모델에 RL을 지속적으로 적용하고 개선할 수 있는 강력한 학습/배포 파이프라인 설계
  • 멀티모달 기반의 정교한 Reward Modeling
  • Complex Task Reward Design: 멀티모달(Vision, Tactile, Language 등) 데이터를 활용하여 복잡한 Manipulation Task의 성공 여부와 진행도를 정교하게 평가하는 Reward Model 연구
  • Human-in-the-loop & Scalable Supervision: 실제 산업 현장에서의 피드백을 학습 신호로 변환하는 메커니즘 개발
  • 실로봇 중심의 성능 검증 및 교차 직군 협업
  • Real-world Validation: 개발된 모델을 실제 로봇 매니퓰레이터에 탑재하여 성능 데이터를 분석하고, 현장 적용성을 최우선으로 검증
  • Cross-functional Collaboration: 시스템 엔지니어, 하드웨어 엔지니어와 긴밀히 협업하여 알고리즘이 로봇 시스템 전체의 최적 성능(Latency, Stability 등)으로 이어지도록 통합 구현



자격 요건

  • Deep Learning & Generative Model에 대한 깊은 이해
  • Transformer, Diffusion, Flow Matching 등 최신 아키텍처를 이해하고, 이를 로봇 제어 목적에 맞게 구현 및 최적화할 수 있는 역량
  • VLA 또는 대규모 VLM 연구/개발 경험
  • 멀티모달 데이터를 결합하여 의사결정 및 제어 Policy를 설계하고, 대규모 모델을 로봇 태스크에 적용해 본 경험
  • 강화학습(RL) 및 모방 학습(IL) 실무 역량
  • Offline-to-Online RL, Offline RL(CQL, IQL 등) 알고리즘에 대한 깊은 이해와 실효성 있는 적용 경험
  • Behavior Cloning을 넘어선 고급 모방 학습 기법 및 고차원 Action Space에서의 Policy 최적화 경험
  • 언어 및 개발 환경 숙련도
  • Python(PyTorch/JAX) 기반의 능숙한 모델링 및 실제 시스템 통합을 위한 프로그래밍 역량



우대 사항

  • Real-world Robot Learning 프로젝트 경험
  • 시뮬레이션에 의존하지 않고 실제 로봇 매니퓰레이터를 활용하여 End-to-End 제어 모델을 성공적으로 배포해 본 경험
  • 로보틱스 특화 수학 및 최적화 지식
  • 동역학(Dynamics), 확률 이론, 비볼록 최적화(Non-convex Optimization) 등 강화학습의 수학적 기초에 대한 깊은 통찰
  • 최정상급 학술 역량
  • NeurIPS, ICML, ICLR, CVPR, RSS, ICRA, IROS 등 AI 및 로보틱스 Top-tier 학회에 제1저자로 논문을 게재했거나 발표한 경험
  • 대규모 모델 학습 및 인프라 활용 능력
  • GPU 클러스터 환경에서 대규모 파라미터를 가진 모델의 분산 학습(Multi-GPU, Multi-node) 및 최적화 경험
  • MLOps 및 데이터 엔지니어링 역량
  • 실로봇에서 생성되는 대규모 상호작용 데이터를 체계적으로 관리하고 학습에 반영하기 위한 파이프라인 구축 경험




근무 조건

  • 근무장소 : 서울 강남구 선릉로 561 (역삼동, 루비나빌딩)
  • 근무기간 : 정규직
  • 수습 기간 안내
  • 입사 시 3개월의 수습 기간이 적용됩니다.
  • 수습 기간 동안 근무 태도와 역량 평가를 진행하며, 평가 결과에 따라 수습 기간이 연장되거나 채용이 취소될 수 있습니다.



지원 방법

  • 제출서류 :
  • 이력서 (한글 또는 영문)
  • (선택) 본인의 역량을 보여줄 수 있는 포트폴리오, 연구자료, 프로젝트 자료 등 추가 제출 가능
  • 지원 마감: 상시 모집 (채용 시 마감)



전형 절차

  • 서류 전형 > 1차 인터뷰 > 2차 인터뷰 > 3차 인터뷰 > 최종 합격
  • 서류 전형 합격 시 개별적으로 연락이 진행될 예정입니다.
  • 절차 상 필요한 경우 커피챗·코딩테스트가 포함될 수 있습니다.



근무 환경 및 지원

  • 유연근무제: 출퇴근 시간을 자율적으로 조정해 각자의 리듬에 맞게 일합니다.
  • 업무 장비·소프트웨어 지원: 직무에 맞는 업무 장비와 필요한 소프트웨어를 지원합니다.
  • 기본 편의시설 운영: 사내 스낵바와 커피 머신을 운영하고 있습니다.
  • 명절 및 생일 선물: 명절과 생일에는 소정의 선물을 전합니다.
  • 건강검진 지원: 정기적인 건강검진으로 건강 관리를 돕습니다.