인공지능

XR 융합 플랫폼 핵심 기술 동향 보고서

망고노트 2025. 11. 5. 07:20
728x90
반응형

XR 융합 플랫폼 핵심 기술 동향 보고서

1. 딥러닝 기반 컴퓨터 비전 그래픽스 핵심 알고리즘

1.1 Neural Radiance Fields (NeRF) 기술 동향

NeRF(Neural Radiance Fields) 2020 미국 UC 버클리와 구글 연구진(Ben Mildenhall ) 의해 처음 공개된 혁신적인 합성 기법으로, 다수의 2D 이미지로부터 임의 시점의 3D 장면을 사실적으로 렌더링할 있는 딥러닝 모델입니다[1]. NeRF 좌표(장면 위치 3D 좌표와 카메라 방향의 5차원 입력) 입력받아 해당 지점의 색상과 밀도를 출력하는 신경망을 학습하며, 이를 통해 시점에 따른 복잡한 광원 효과(반사, 투명도 )까지 표현하는 신경 방사 필드 형성합니다[2][3].

NeRF 등장 이후 분야 연구는 폭발적으로 증가하여 Radiance Field 기반 논문이 거의 매일 10 이상 나올 정도로 인기가 높아졌습니다[4]. 초기 NeRF 모델은 고품질 렌더링이 가능하나 학습과 추론 속도가 느려 실제 응용에 한계가 있었습니다[5]. 이를 개선하기 위해 즉시 네프(Instant NeRF) 여러 가속 기법이 도입되었습니다. 예를 들어, NVIDIA 연구진은 멀티레졸루션 해시 그리드 부호화 등으로 NeRF 학습을 1000 가속 Instant NeRF 발표하여, 3D 장면 훈련이 가능함을 시연했습니다[6][7]. Instant NeRF RTX GPU Tensor 코어를 활용한 AI 가속으로 동작하며, 일반 PC에서도 구동되어 NeRF 기술의 대중화를 이끌었습니다[8]. 실제로 NVIDIA 해당 연구는 2022 SIGGRAPH 최우수 논문상을 받았고 TIME지가 선정한 “2022 최고의 발명으로 꼽힐 만큼 주목받았습니다[9].

이처럼 NeRF 관련 연구는 모델 경량화와 실시간화 방향으로 발전하고 있습니다. 또한 정적 장면뿐 아니라 동적 장면(움직이는 객체가 있는 환경)으로의 확장, NeRF로부터 메쉬 추출(NeRF→메쉬 변환) 등도 활발히 연구됩니다[10][11]. 대표적으로 구글은 NeRF 3D 가우시안 기법을 결합하여 초고속 렌더링을 구현한 RadSplat 발표하는 새로운 하이브리드 기법도 속속 등장하고 있습니다[12].

응용 측면에서 NeRF AR/VR 콘텐츠 생성(: 사진 장으로 3D 공간 재현), 로봇 비전(환경의 3D 획득), 영상/영화 제작(세트장의 3D 캡처) 폭넓게 활용됩니다. 구글, NVIDIA, 메타 빅테크 연구소와 학계의 Matthew Tancik, Jonathan T. Barron, Gordon Wetzstein 등의 연구자들이 분야를 선도하고 있습니다. 오픈소스로는 파이토치 기반 NeRFstudio 툴킷이나, NVIDIA Instant-NGP 라이브러리 등이 공개되어 개발자들이 손쉽게 NeRF 실험해볼 있습니다[13].

1.2 Gaussian Splatting (가우시안 스플래팅)

Gaussian Splatting 2023 프랑스 INRIA 연구진(Kerbl ) 주도로 발표되어 NeRF 대안으로 각광받는 최신 3D 재구성 기법입니다[14]. NeRF 신경망으로 방사 필드를 암묵적으로 표현하는 반면, Gaussian Splatting 장면을 수천 개의 3D 가우시안 구름(elliptical Gaussian)으로 명시적 표현하여 고속 렌더링 달성합니다[15]. 방법은 초기 카메라 캘리브레이션으로 얻은 희소 점들 시작으로 점을 3차원 가우시안으로 표현하고, 실제 사진과의 오차가 줄어들도록 가우시안들의 위치·크기(공분산투명도를 반복 최적화합니다[16][17]. 이렇게 학습된 수천 개의 3D 가우시안들은 장면의 밀도와 색상 정보를 담아, 새로운 시점에서 이를 스플래팅(splat)하여 2D 영상으로 투영함으로써 합성을 수행합니다[18][19].

Gaussian Splatting 가장 장점은 렌더링 속도입니다. Kerbl 등의 SIGGRAPH 2023 논문에서는 기법으로 1080p 해상도에서 초당 100 이상의 합성(100 fps 이상) 가능함을 보여주었고, 기존 NeRF 유사 기법 대비 품질 저하 없이 실시간 수준의 성능을 달성했습니다[20]. 또한 공간적으로 불필요한 영역에는 가우시안을 배치하지 않아 연산 낭비를 줄이고, 가우시안의 비등방성 공분산 최적화를 통해 장면의 세부 구조를 정확히 표현해 냅니다[21]. 이러한 정확도와 효율성 덕분에 Gaussian Splatting 3D 재구성 분야에서 현재높은 정확도로 반향을 일으키고있으며[22], NeRF 한계를 뛰어넘는 차세대 기술 주목받고 있습니다[23].

응용 사례로는 자율주행 영상의 3D 복원에 Gaussian Splatting 적용한 Street Gaussian 알고리즘 등이 있으며, 복잡한 거리 환경에서 움직이는 객체를 배경과 분리하여 재구성하는 NeRF 어려웠던 영역에 성과를 보였습니다[24][25]. Gaussian Splatting 연구는 발표 이후 짧은 기간에 관련 팔로업 논문 리스트 만들어질 정도로 활발하며[26], Google 등에서도 NeRF GS 강점을 결합한 RadSplat 내놓는 대형 기술 기업들도 관심을 보이고 있습니다[12]. 주요 연구진으로 INRIA-Université Côte d’Azur George Drettakis 교수 팀과, 공동연구기관인 MPI Informatik 등이 있으며, 해당 기법의 오픈소스 구현 데이터셋도 공개되어 학계 개발자들의 실험이 진행 중입니다[27][28].

1.3 SLAM (동시적 위치추정 지도작성) 최신 동향

SLAM(Simultaneous Localization and Mapping) 로봇이나 디바이스가 미지의 환경을 탐색하면서 자신의 위치를 추정(Localization)하고 동시에 환경의 지도(Map) 작성하는 기술로, XR 분야의 근간 이루는 핵심 알고리즘입니다. SLAM 증강현실(AR) 기기나 자율주행 드론에서 공간을 이해하고 가상 객체를 정확한 위치에 배치하거나 충돌을 피하도록 하는 필수적이며[29][30], 혼합현실(MR)이나 VR 헤드셋의 인사이드-아웃 추적(헤드셋에 달린 카메라로 사용자의 위치를 추적)에도 활용됩니다[31]. , SLAM 없다면 AR 글래스는 주변 세계를 3D 인식하지 못해 홀로그램을 실제 공간에 고정시킬 없고, VR 기기는 사용자 이동 실내 한정된 공간에서 안전히 관리하기 어렵습니다[32][33]. 이러한 이유로 SLAM 기술은 XR 앱의 정밀한 몰입감 안전성 좌우하는 중추 기술 자리잡았습니다[34].

최근 SLAM 연구 동향을 살펴보면, 전통적인 비주얼 SLAM(카메라 기반) 기법에 딥러닝 접목하여 특징점 추출 객체 인식 향상시키거나, 라이다(LiDAR) 다중 센서 융합 통한 정밀도 개선이 주된 흐름입니다. 예를 들어, 현재 AR 분야에서 가장 널리 쓰이는 Apple ARKit Google ARCore 단안 카메라 + 관성센서(IMU) 기반의 비주얼-관성 오도메트리(VIO) 구현하여 모바일 기기에서 실시간 SLAM 수행합니다[35][36]. ARKit 경우 단일 RGB 카메라와 IMU만으로도 매우 우수한 추적精度를 달성하며[35], 카메라 영상의 특징점과 IMU 데이터를 칼만 필터로 융합해 프레임 기기 위치를 추정하는 방식으로 구동됩니다[36]. 다만 카메라 시야가 가려지거나 군중 속과 같이 특징점 추적이 어려운 환경에서는 위치 추정이 흔들릴 있어, 최근 연구들은 이러한 외란 상황에서의 오차 보정 (: 카메라가 occlusion IMU 걸음수로 보정하는 ) 기법을 개선하고 있습니다[37][38].

또한 Semantic SLAM이라 하여, 딥러닝 기반 객체인식 SLAM 결합해 지도 상에 의미정보(: “”, “의자레이블) 붙이는 연구도 활발합니다. 이는 XR에서 현실 환경을 이해하고 가상 객체와 물리적으로 상호작용하게 만드는 중요합니다. 예컨대 가상 캐릭터가 현실의테이블위에 앉게 하려면 SLAM 지도가 단순 점구름이 아니라 테이블 평면을 인지해야 하므로, CVPR/ICCV 2023 등에서 3D 딥러닝과 SLAM 통합한 다양한 시도가 보고되고 있습니다.

산업계에서는 Microsoft HoloLens 공간 매핑, Meta 내부 SLAM 연구, Magic Leap 공간 컴퓨팅 등으로 AR 글래스 분야에서 최적화된 SLAM 구현에 주력하고 있습니다. 또한 오픈소스 SLAM으로 유명한 ORB-SLAM3, RTAB-Map, OpenVSLAM 등이 꾸준히 발전 중이며, 특히 XR 분야 필요에 맞춘 OpenXR-Lab XRSLAM 툴박스도 공개되어 있습니다[39][40]. XRSLAM 모바일과 PC 모두 지원하고, iPhone AR 데모까지 제공하며, 시각관성ODO, 시각 위치인식, 구조-from-모션 XR 관련 SLAM 모듈을 통합 제공하고 있어 연구자와 개발자에게 유용한 플랫폼입니다[41][42].

요약하면, XR 위한 SLAM 기술은 정밀도 향상(센서융합, 모캡 기반 검증 ), 견고성 향상(동적환경 처리, 딥러닝 특징점) 그리고 경량화(모바일 실시간 동작) 방향으로 연구·개발이 활발합니다. 2025 현재 SLAM XR 몰입형 경험의 기반으로서 중요성이 더욱 커지고 있으며, 표준화된 벤치마크와 고정밀 그라운드트루스 제공을 위한 노력 또한 진행되고 있습니다[34][43].

2. 이미지 영상 기반 생성형 멀티모달 AI 알고리즘

2.1 Vision-Language Large Models (Vision LLM) 동향

Vision LLM 대규모 언어모델(LLM) 이미지 이해 능력 결합한 멀티모달 AI, 2023 GPT-4 등장을 계기로 급속히 발전하고 있는 분야입니다. OpenAI GPT-4 텍스트 아니라 이미지 입력까지 수용 있는 거대 멀티모달 모델로서, 주어진 그림에 대한 설명 생성, 이미지 기반 Q&A 다양한 비전+언어 과제 척척 수행하여 관심을 모았습니다[44]. GPT-4 내부적으로 비공개이지만, 텍스트와 이미지를 동시에 이해하고 추론할 있다 것을 보여주며 멀티모달 지능의 가능성을 입증했습니다[44].

한편 연구 커뮤니티에서는 GPT-4V 대응하는 오픈소스 대안들도 속속 등장했습니다. 대표적인 예가 LLaVA, CLIP 비전 인코더(이미지 임베딩 추출) Vicuna 대형언어모델을 결합하고 이미지-캡션 데이터로 시각 지시 학습(Visual Instruction Tuning)하여, 마치 GPT-4처럼 이미지에 대해 대화형으로 설명하고 질문에 답할 있는 비전 챗봇 구현했습니다[45]. LLaVA 최초의 GPT-4V 오픈소스 대안으로 주목받았으며, NeurIPS 2023에서 구두 발표되었고 이후 LLaVA v1.5/2.0 LLaVA-Interactive 확장판이 개발되어 이미지뿐 아니라 영상 이해 능력까지도 시험하고 있습니다[46]. 이밖에 Meta LLaMA-Adapter, MS Kosmos-1, Salesforce BLIP-2 다양한 Vision-Language 모델들이 발표되어 멀티모달 LLM 생태계가 빠르게 성장 중입니다[47][48].

Vision LLM 활용 사례로는 이미지 캡셔닝(: 시각장애인용 이미지 설명), 비디오 내용 요약 질의응답, 멀티모달 검색(텍스트+이미지 쿼리) 등이 있습니다[49]. 예를 들어, Vision LLM 사진을 보고 장면에서 사람이 무엇을 하고 있는지자연어로 답변하거나, 그래프가 포함된 보고서를 입력하면 텍스트와 그래프를 모두 해석해 요약해줄 있습니다[50]. 또한 걸음 나아가 생성적 기능도 실험되고 있는데, Visual ChatGPT 같은 시스템은 이미지 생성 모델을 LLM 연결하여고양이 사진을 그리고 모자를 씌워줘같은 복합 요구를 처리하기도 합니다. MS리서치는 LLaVA-Interactive 데모를 통해, 이미지 낙서로 영역을 지정하면 해당 부분을 제거하거나 다른 것으로 대치하여 이미지 생성까지 대화로 수행하는 종합 시스템을 시연했습니다[51][52].

현재 Vision LLM 연구의 방향은, 거대 멀티모달 모델(: 구글의 차세대 Gemini ) 통해 AGI 근접한 종합적 지능 추구하는 것입니다. 텍스트, 이미지, 음성, 비디오까지 모델이 이해하고 생성하는 통합 모델 목표이며, 2025년에도 관련 연구가 활발할 것으로 전망됩니다. 기술적 과제로는 멀티모달 학습의 효율성(매우 많은 데이터와 연산량) 문제, 시각 정보와 언어 정보의 정교한 융합(폴리모달 어텐션 구조 ), 그리고 안전성 Hallucination 감소 등이 논의되고 있습니다. 그럼에도 Vision LLM XR 밀접한 분야로서, 향후 스마트 안경 비서 등이 카메라 영상과 음성을 동시에 이해하여 사용자에게 증강 정보 제공하는 등의 혁신을 이루게 핵심 기술로 주목받고 있습니다.

2.2 텍스트 비디오 (Text-to-Video) 생성 모델

Text-to-Video 텍스트 문장을 입력하면 설명에 부합하는 동영상을 자동 생성하는 생성형 AI 분야입니다. 2022 ~2023년에 걸쳐 구글과 메타를 비롯한 여러 기관에서 프로토타입 모델을 선보이며 급격히 발전했습니다. 구글의 Imagen Video(2022) 메타의 Make-A-Video(2022) 초기 예로, 텍스트 프롬프트만으로 길이의 짧은 동영상 생성할 있음을 시연했습니다. 예를 들어설원에서 펭귄 마리가 기타 치는 애니메이션이라는 문장을 넣으면 그에 맞는 짧은 영상을 합성하는 식입니다. Imagen Video 구글 Imagen 이미지 생성 모델을 확장해 고해상도 비디오 합성을 구현했고, 계단형 확산 모델(기본 비디오 생성모델 + 단계적 공간·시간 해상도 증강) 고품질 영상을 얻었다고 보고했습니다[53]. 메타의 Make-A-Video 역시 공개 영상을 활용해 학습했으며, 텍스트영상 아니라 장의 이미지를 입력받아 이미지를 움직이는 영상으로 만들거나, 기존 영상을 스타일 변환 새로운 영상으로 생성하는 기능도 함께 선보였습니다[54].

2023 들어 이러한 거대 연구 모델들이 논문과 데모로 발표된 , 실제 연구 커뮤니티에서는 확산 모델(Diffusion) 기반의 오픈소스 Text2Video 구현이 등장하기 시작했습니다. 특히 중국 모델스코프(ModelScope) 팀은 Stable Diffusion 기반으로 확장한 ModelScope Text2Video 공개하여 주목받았습니다. ModelScope-T2V Stable Diffusion 이미지 모델을 시공간 확장하여 연속 프레임을 생성하는 방식으로, 시간 일관성 있는 프레임과 자연스러운 움직임을 만들어냅니다[55]. 17 파라미터 규모의 모델은 텍스트영상 생성에서 당시 공개된 다른 방법 대비 우수한 성능을 보였으며, 코드와 온라인 데모를 공개하여 처음으로 오픈소스 텍스트--비디오 모델 대중이 시도할 있게 했습니다[56]. 모델은 2023 3 공개 시점에세계 최초 공개된 텍스트--비디오 확산모델 화제를 모으기도 했습니다.

현재 Text-to-Video 기술의 트렌드는 영상( 이상) 생성, 높은 해상도와 사실도 확보, 그리고 제어 가능성 향상입니다. 하나의 문장으로 모든 프레임을 일괄 생성하기보다, 스토리보드 장면 묘사 단위 나눠 생성하거나, 사용자가 키프레임 또는 참조 이미지를 주어 세밀히 연출 제어하는 연구도 진행되고 있습니다. 실제 상용 제품으로 Runway 2023 Gen-2 모델을 출시하여 텍스트로 새로운 영상을 만들거나, 텍스트+이미지를 동시에 입력 특정 이미지를 움직이게 하는 여러 모드의 영상 생성을 지원했습니다[57]. 예를 들어, Gen-2 Mode 02텍스트 + 이미지 to 비디오 동작하여, 사용자가 제공한 장의 이미지를 기반으로 이미지를 움직이는 영상을 생성할 있습니다[58]. Mode 03 이미지 to 비디오 (Variation), 없이 이미지만으로 그와 유사한 영상을 여러 장면 만들어내기도 합니다[59]. 이러한 멀티모달 생성 시스템은 영상 제작 파이프라인을 혁신할 잠재력이 있지만, 아직은 생성 영상의 해상도나 길이, 디테일이 제한적이고 움직임 일관성 문제 등이 과제로 남아 있습니다[60]. 향후 대규모 비디오 전용 데이터셋과 모델의 발전으로 XR 분야 (: 가상환경 자동생성, 디지털 휴먼의 동작 합성) 폭넓게 응용될 전망입니다.

2.3 텍스트 모션 (Text-to-Motion) 생성 알고리즘

Text-to-Motion사람이 달리는 동작”, “즐겁게 춤추는 동작등의 자연어 설명을 입력하면, 그에 대응하는 3D 인간 동작 시퀀스(: 인체 골격 애니메이션) 생성하는 기술입니다. 캐릭터 애니메이션, 게임 개발, 로봇 시뮬레이션 등에서 유용하며, 최근 딥러닝 기반 모션 생성 모델들의 발전으로 활발한 연구 주제가 되었습니다[61][62]. 과거에는 모션 캡처 데이터베이스에서 비슷한 동작을 검색하거나 이어붙이는 방식이었지만, 이제는 생성적 모델(VAE, GAN, Diffusion ) 통해 새로운 모션 시퀀스 합성할 있게 되었습니다[63][64]. 특히 확산 모델 (Diffusion) 성공으로 이미지뿐 아니라 모션 도메인에도 적용되어 품질을 끌어올렸습니다. 최근 서베이에 따르면, 텍스트 기반 모션 생성에서 확산 모델이 고품질·시간적 일관성 측면에서 가장 각광받는 방법으로 떠오르고 있습니다[65]. 예를 들어 MDM (Motion Diffusion Model)[66], MotionDiffuse 등은 Denoising Diffusion Probabilistic Model 모션 시퀀스 생성에 적용하여, 복잡한 3D 동작을 비교적 자연스럽게 만들어냅니다. 확산 모델은 여러 랜덤 샘플을 생성해 다양한 결과 얻는 데도 유리하여, 같은 문장에 대해 다양한 스타일의 움직임을 만들 있는 장점도 있습니다.

Text-to-Motion 분야의 연구 동향으로는, 모달리티 결합 대용량 있습니다. 먼저 대형 언어모델(LLM) 발전이 모션 생성에도 영향을 주어, 텍스트의 미묘한 뉘앙스를 이해하고 모션으로 풀어내기 위해 모션 전용 대형 모델 지향하는 움직임이 있습니다[67]. 예를 들어천천히 여유롭게 걷다가 갑자기 손을 흔들며 인사같은 복합 문장을 이해하려면 언어이해력이 중요하므로, LLM 힘을 빌리거나 모션 표현에 특화된 대규모 모델을 구축하려는 시도가 나타납니다. 둘째로 Scene-aware Motion 연구로, 단순한 인간 단독 동작 외에 환경과 상호작용하는 동작(의자에 앉기 )이나 다인 동작( 사람이 대화하면서 악수 ) 생성처럼 맥락을 고려한 모션 합성 방향이 부상하고 있습니다[68]. 이는 XR 환경에서 가상 캐릭터가 주변 가상/현실 객체와 자연스럽게 상호작용하도록 하는 필수적입니다.

현재 공개된 모델과 자료로는, UC버클리 MotionDiffuse, 페이스북 AI TEMOS, 삼성 AI T2M-GPT 여러 논문 구현체가 GitHub 공개되어 있습니다. 특히 Guy Tevet 등의 Human MDM PyTorch 구현이 공개되어 많은 연구자가 활용 중이며[69], Snap研究팀 MoFusion, MMDM 효율화 모델도 발표되고 있습니다[70][71]. 오픈소스 프로젝트로 OpenXRLab XRMoGen (Human Motion Generation Toolbox) 있어, 멀티뷰 모캡 데이터에 기반한 모션 합성 실험을 지원합니다[42]. 응용 사례로 Unity 등의 게임 엔진에 텍스트로 동작을 입력해 NPC 애니메이션을 자동 생성하거나, VR 챗봇 아바타에 사용자 대화에 맞춘 제스처 생성 등에 활용 가능성이 시험되고 있습니다. 다만 완벽한 자연스러운 모션 생성까지는 해결과제가 많아(세밀한 손가락 제스처, 시퀀스의 안정성, 의도 전달의 모호성 [72][73]), 연구자들은 대용량 데이터 학습, 미세제어(컨트롤러블) 생성 등으로 지속 개선을 모색하고 있습니다. 그래도 텍스트 줄로 3D 모션을 얻는 접근은 매우 직관적이고 강력하여[74][75], XR 콘텐츠 제작의 생산성을 크게 높일 기술로 기대되고 있습니다.

2.4 이미지 비디오 (Image-to-Video) 기타 멀티모달 생성

이미지/영상 기반 생성형 AI 기타 흥미로운 분야로 이미지 to 비디오 변환을 있습니다. 이는 장의 이미지를 주면 이미지가 움직이는 영상 클립 생성하는 것으로, 앞서 언급한 메타의 Make-A-Video 지원했고[54], Runway Gen-2 등에서도 구현된 기능입니다[58]. 예를 들어, 정지된 풍경 사진을 입력하면 바람에 나무가 흔들리고 구름이 흐르는 초짜리 영상을 만들어내거나, 인물 사진을 입력하면 blink 미소짓는 변화를 주어 움직이는 포토그래프 만드는 식입니다. 기술은 사진 애니메이션, 게임 캐릭터 생성 등에 응용될 있으며, 현재는 주로 이미지 생성 모델에 동영상 연장 개념으로 접근하고 있습니다. Diffusion 기반으로 프레임은 입력 이미지와 동일하게 두고 이후 프레임들을 예측 생성하거나, 이미지+텍스트 조건으로 동영상을 합성하는 방식이 연구됩니다.

다른 멀티모달 방향으로 텍스트+오디오 합성, 비디오+모션 합성 등도 있습니다. 예컨대 Audio-driven Video 음악이나 목소리 음성을 넣으면 그에 맞춰 사람이 춤추거나 말하는 영상을 생성하는 것으로, 현재 음성합성+영상생성 기술의 결합으로 실험되고 있습니다. 이러한 멀티모달 생성 AI들은 아직 초기 단계이지만, 대규모 멀티모달 모델 통합 트렌드 속에 점차 융합되어 것으로 보입니다.

요약하면, VisionLLM, Text-to-Video, Text-to-Motion, Image-to-Video 등은 멀티모달 생성 AI 다양한 양상으로, 각기 최신 딥러닝 연구에 힘입어 빠르게 발전 중입니다. XR 융합 플랫폼에서는 이들 기술을 활용해 현실과 가상 경계를 허무는 창의적인 기능 구현이 가능해질 것입니다. 예를 들어, AR 글래스로 주변을 비추면 VisionLLM 장면을 이해하고 설명해주고(Text+Vision 이해), 사용자의 음성 명령에 따라 가상의 동물 캐릭터가 해당 장면에서 움직이는 모션을 생성(Text-to-Motion)하여 현실에 실시간 합성되고, 전체를 동영상으로 기록하거나 생성(Text-to-Video)하는 식의 종합적 XR 경험 머지않아 가능해질 것으로 전망됩니다.

3. 관련 소프트웨어 개발 기술 적용 사례

3.1 파이썬/CUDA 기반 구현 도구와 프레임워크

XR 융합 플랫폼의 핵심 기술들을 구현하고 실험하기 위해서는 파이썬 CUDA 기반의 딥러닝 프레임워크와 툴들을 활용하는 것이 일반적입니다. 딥러닝 연구 커뮤니티에서 표준인 PyTorch TensorFlow NeRF Diffusion이든 거의 모든 모델 구현에 활용되고 있으며, GPU 가속을 위해 NVIDIA CUDA 라이브러리를 사용합니다. 예를 들어 NeRF 경우, PyTorch 구현 다수 존재하고 학습에 시간 걸리던 것을 tiny-cuda-nn 같은 CUDA 최적화로 가속한 사례가 있습니다[7]. NVIDIA Instant-NGP 라이브러리는 C++/CUDA 작성되었지만 Python 바인딩 제공하여 개발자들이 쉽게 모델을 학습시키고 결과를 시각화할 있게 했습니다[13]. 실제 Instant NeRF 툴은 Windows 실행파일 배포되어, 전문 지식 없는 사용자도 RTX GPU 있으면 GUI 자신의 사진들을 불러와 NeRF 3D 모델을 생성해볼 있도록 친숙하게 제공되고 있습니다[76].

생성형 멀티모달 AI 경우 Hugging Face 생태계의 도움이 큽니다. HuggingFace Transformers 라이브러리 VisionLLM (: BLIP-2, LLaVA ) 모델을 손쉽게 불러와 활용할 있게 하며, Diffusers 라이브러리 Stable Diffusion 기반의 텍스트--이미지, 텍스트--비디오 파이프라인을 구현하여 공개했습니다. ModelScope Text2Video 또한 Diffusers 통해 실행할 있고, 각종 오픈소스 체크포인트(LDM, T2V)들이 허깅페이스에 공유되어 있습니다. 파이토치3D Open3D 등의 라이브러리는 3D 데이터 처리를 지원하여 NeRF/SLAM 개발에 활용됩니다.

학계 오픈소스로는 앞서 언급한 OpenXRLab 시리즈 (XRPrimer, XRSLAM, XRSfM, XRLocalization, XRMoCap, XRMoGen, XRNeRF ) 통합 프레임워크를 제공하여, 연구자들이 공통된 인터페이스로 여러 XR 알고리즘을 실험할 있게 돕습니다[42]. 예를 들어 XRNeRF 다양한 NeRF 알고리즘들을 한데 모아 벤치마킹하고, XRSLAM ORB-SLAM, VINS 여러 SLAM 방법을 포함하며, XRMoGen 모션 생성 diffusion 모델을 구현해둔 식입니다. 이러한 툴은 Apache-2.0 오픈 라이선스 공개되어 연구 현황 파악과 재현성을 높이고 있습니다.

마지막으로, CUDA 프로그래밍 역량은 고성능 XR 알고리즘 구현에 매우 중요합니다. 예를 들어 NeRF 훈련을 위한 볼류메트릭 렌더링 수많은 광선 샘플 계산이 필요한데, 이를 CPU 하면 느리므로 CUDA 커널 작성해 병렬화합니다. SLAM 경우도 루프 폐쇄 감지 같은 연산에 GPU 활용하기도 합니다. Python에서 CUDA 커널을 직접 다루기 위해 PyCUDA cupy 등을 쓰기도 하고, 고성능이 필요하면 C++/CUDA 핵심 모듈을 작성한 Python 연동합니다. 요약하면, Python 생산성 CUDA 성능 적절히 조합하는 것이 XR 알고리즘 프로토타이핑과 상용 구현의 키포인트입니다.

3.2 Unity Unreal Engine에서의 적용 사례

Unity Unreal Engine XR 개발에서 양대 산맥인 실시간 3D 엔진으로, 앞서 소개한 기술들의 실제 응용 구현하는 널리 쓰입니다. Unity/Unreal 기본적으로 그래픽 렌더링과 상호작용 기능을 제공하지만, 최근에는 머신러닝 통합 중요한 이슈입니다.

Unity에서는 AR 개발을 위해 AR Foundation 프레임워크로 ARKit/ARCore 추상화하여 SLAM 기반 월드 트래킹을 손쉽게 활용할 있게 했습니다. 예컨대 Unity 앱을 만들면 iOS에서는 ARKit SLAM 데이터를, 안드로이드에서는 ARCore SLAM 데이터를 통일된 방식으로 받아와 가상 객체를 배치할 있습니다. 또한 Unity Barracuda라는 ONNX 기반 딥러닝 추론 라이브러리를 제공해, 학습된 모델(: PoseNet ) Unity 씬에서 실시간 실행할 있도록 지원합니다. 이를 활용해 시각 모델 추론(: 카메라 영상에서 사람 포즈 인식) Unity에서 돌리고, 결과에 따라 애니메이션하는 응용 등이 가능합니다.

Unreal Engine OpenXR, ARKit/ARCore 플러그인 통해 AR/VR 기기의 SLAM 데이터를 사용하게 해주며, MetaHuman 등의 디지털 휴먼 기술과 AI 접목하려는 시도가 활발합니다. Epic Games 2023 Unreal Engine 5.2에서 ML Deformer 기능을 추가해 머신러닝 기반 캐릭터 변형을 지원했고, MetaHuman Animator 영상 컷으로 사람의 얼굴 표정을 캡처해 디지털 휴먼에 바로 적용하는 AI 기능을 선보였습니다[77]. 또한 서드파티로 Inworld AI 같은 플러그인은 Unreal 엔진 NPC 캐릭터에 LLM 기반 대화 AI 넣어 음성 대화를 가능케 하는 , 게임 엔진과 AI 결합이 활발해지고 있습니다.

특히 NeRF 게임엔진의 연동 흥미로운데, 2023 공개된 오픈소스 Unity 패키지 Immersive NGP NVIDIA Instant-NGP 기반 NeRF 렌더러를 Unity 내장하여, VR 환경에서 NeRF 캡처된 공간을 6-DoF 자유롭게 체험 있게 했습니다[78]. 패키지는 VR 헤드셋 (: Oculus Quest2)에서 눈의 시차에 맞춰 NeRF 뷰를 스테레오 렌더링해주며, DLSS 지원으로 프레임레이트를 높이고, Unity MRTK 통합해 혼합현실(MR) 모드에서 NeRF 객체를 현실과 합성하는 기능도 제공합니다[79]. , NeRF 얻은 3D 장면을 Unity 씬의 하나의 객체처럼 불러와서 배치하고, 깊이 테스처를 활용해 현실 카메라 영상과 합성해 AR표시도 하는 XR에서 NeRF 활용의 가능성을 보여주었습니다[80][81].

Unity/Unreal에서는 이러한 최첨단 AI 기능을 다루는 커뮤니티와 튜토리얼도 증가하고 있습니다. Alembic이나 USD 포맷으로 NeRF 메쉬로 변환해 들여오는 워크플로우, Python 지원(Unreal 파이썬 API 제공) 통한 AI 스크립팅, 라이브 링크 통한 모션 캡처 데이터 스트리밍 다양한 접근이 시도되어 XR 개발에 활용되고 있습니다.

3.3 오픈소스 프로젝트 튜토리얼 링크

최신 기술 동향을 따라잡고 직접 실습해보기 위해 참고할 만한 오픈소스 프로젝트와 자료 다음과 같습니다.

  • OpenXRLab 시리즈 – XR 관련 핵심 알고리즘의 레퍼런스 구현 모음[42]. : XRSLAM (Visual-Inertial SLAM)[39], XRNeRF (NeRF 벤치마크) . GitHub에서 코드와 튜토리얼 제공.
  • Nerfstudio – NeRF 계열 알고리즘을 손쉽게 실험할 있는 파이썬 프레임워크. 여러 NeRF 변종 (InstantNGP, Mip-NeRF ) 구현과 시각화 도구 포함.
  • instant-ngp (NVIDIA) – C++/CUDA 구현된 NeRF/프로너스 등의 실시간 렌더링 엔진[9]. 예제 데이터와 튜토리얼(Getting Started with Instant NeRF) 통해 3D fox 장면 등을 테스트 가능[13].
  • LLaVA – Vision+LLM 모델의 오픈소스 구현. GitHub 프로젝트를 통해 학습된 체크포인트와 데모 스크립트 제공. 시각 질의응답 기능 참고.
  • ModelScope Text2Video허깅페이스 허브에 공개된 text2video 모델[56]. Colab 노트북 등으로 사용법을 안내하고 있어 텍스트->영상 합성을 체험 가능.
  • Motion Diffusion Model (MDM)인간 모션 확산 모델의 공식 PyTorch 구현[69]. 샘플 스크립트로 “A person is walking” 등의 프롬프트에 대한 모션을 생성해볼 있음.
  • Immersive NGP (Unity) – NeRF VR 데모용 Unity 프로젝트[78]. Oculus VR장치가 있다면 NeRF 캡처된 장면을 직접 체험하는 튜토리얼 제공.
  • AR Foundation Samples (Unity) – Unity 제공하는 AR 예제 모음. SLAM 기반 AR월드맵, 공간 앵커 개념을 코드로 학습 가능.
  • Unreal Engine ML Examples에픽에서 제공하는 Learning Agents ML 플러그인 예제[82]. MetaHuman 음성대화, 객체 인식 튜토리얼을 통해 Unreal+AI 활용법 습득.

마지막으로 최신 논문은 arXiv Papers with Code에서 “NeRF”, “Text-to-Video”, “Vision LLM” 키워드로 검색하면 매달 새로운 연구를 추적할 있습니다. 커뮤니티 블로그(: PyImageSearch, Medium ) 어려운 논문을 쉽게 풀어 소개하니 도움이 됩니다. 예컨대 PyImageSearch 블로그에서는 Gaussian Splatting 개념을 그림으로 풀어 설명하며 자체 예제 코드까지 제공합니다[24][25]. XR 융합 플랫폼은 여러 최첨단 기술의 집합체인 만큼, 관련 분야의 이러한 자료들을 적극적으로 활용하여 지속적인 업데이트와 실험 병행하는 것이 중요합니다.

以上의 조사 내용을 토대로, XR 융합 플랫폼 구현을 위한 최신 기술 트렌드 요약하면 다음과 같습니다:

  • NeRF Gaussian Splatting 비롯한 신경 렌더링 기법 발전으로, 현실 세계의 3D 복제가 점점 실시간에 가깝고 정밀하게 가능해지고 있습니다[4][22]. 이는 XR에서 현실 공간을 가상으로 옮겨오거나, 가상 객체를 현실에 자연스럽게 혼합하는 핵심 역할을 합니다.
  • Vision+Language 거대 모델, 텍스트 기반 이미지/영상/모션 생성 기술의 부상으로, XR 콘텐츠 제작과 상호작용 방식이 한층 높은 수준의 자동화 자연스러움 얻고 있습니다. 사용자는 복잡한 3D 에셋이나 애니메이션을 일일이 수작업하지 않고, AI 설명만으로 생성시킬 있는 시대가 열리고 있습니다[65][57].
  • 소프트웨어 인프라 측면에서, Python/CUDA Unity/Unreal 등의 조합으로 이러한 AI 기술을 빠르게 프로토타이핑하고 XR 애플리케이션에 통합하는 것이 용이해졌습니다. 다양한 오픈소스 프로젝트와 튜토리얼이 축적되어 있어 진입장벽이 낮아지고 커뮤니티도 활성화되고 있습니다[8][42].
  • 종합적으로, XR 융합 플랫폼은 현실 공간의 디지털 트윈화, 멀티모달 AI 비서, 사용자 의도에 따른 실시간 콘텐츠 생성이라는 방향으로 발전하고 있습니다. 앞으로 경량 AR 안경이나 메타버스 플랫폼에서 여기서 언급한 기술들이 실시간으로 결합되어 동작할 것이며, 이는 교육, 의료, 제조, 엔터테인먼트 여러 분야에서 새로운 경험 서비스 혁신 가져올 것으로 기대됩니다.

以上으로, 딥러닝 기반 컴퓨터 비전·그래픽스 알고리즘(NeRF, Gaussian Splatting, SLAM ), 이미지/영상 생성 멀티모달 AI(Vision LLM, Text-to-Video/Motion ), 그리고 소프트웨어 개발 도구/사례(PyTorch+CUDA 구현, Unity/Unreal 적용, 오픈소스 프로젝트) 최신 동향과 연구개발 현황을 살펴보았습니다. 주제별로 대표 논문과 참고 자료의 링크를 포함하였으니 향후 심층 연구에 활용하시길 바랍니다. 감사합니다.

참고문헌 자료:

·         NeRF 원논문: Mildenhall et al., Neural Radiance Fields, ECCV 2020[1] .

·         Gaussian Splatting: Kerbl et al., SIGGRAPH 2023 논문 Inria 공개 자료[20][22].

·         SLAM XR: ARKit 기술 문서[35], Shu et al., IEEE TVCG 2025 (XR SLAM Benchmark)[34] .

·         Vision LLM: OpenAI GPT-4 발표 자료[44], LLaVA 논문 (Liu et al. 2023)[45], Code-b 블로그[47].

·         Text-to-Video: Google Imagen Video[53], Meta Make-A-Video[54], ModelScope T2V 보고서[55], Runway Gen-2 소개[57] .

·         Text-to-Motion: Human MDM (Tevet et al. 2022)[66], Sahili et al. 2024 서베이[65][61].

·         개발 도구: NVIDIA Instant NeRF 블로그[8], OpenXRLab GitHub[42], Immersive NGP (Unity) GitHub[78] .


[1] [2] [3] [4] [10] [11] [12] [15]  Radiance Fields (Gaussian Splatting and NeRFs)

https://radiancefields.com/

[5] [14] [20] [21] [27] [28] 3D Gaussian Splatting for Real-Time Radiance Field Rendering

https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/

[6] NVIDIA Instant NeRF tech converts 2D photos into 3D scenes in the ...

https://www.dpreview.com/news/7507822053/nvidia-instant-nerf-tech-converts-2d-photos-into-3d-scenes-in-the-blink-of-an-ai

[7] [8] [9] [13] [76] Transform Images Into 3D Scenes With Instant NeRF | NVIDIA Blog

https://blogs.nvidia.com/blog/ai-decoded-instant-nerf/

[16] [17] [18] [19] [22] [23] [24] [25] 3D Gaussian Splatting vs NeRF: The End Game of 3D Reconstruction? - PyImageSearch

https://pyimagesearch.com/2024/12/09/3d-gaussian-splatting-vs-nerf-the-end-game-of-3d-reconstruction/

[26] MrNeRF/awesome-3D-gaussian-splatting - GitHub

https://github.com/MrNeRF/awesome-3D-gaussian-splatting

[29] [30] [31] [32] [33] What is Simultaneous Localization and Mapping (SLAM)? — updated 2025 | IxDF

https://www.interaction-design.org/literature/topics/slam?srsltid=AfmBOooyHluXNW5OU0ZFqBYWcVWvH9OTBuhZ7ZMqm_o-CcVBZbjIpdFm

[34] [43] Spatiotemporal Calibration and Ground Truth Estimation for High-Precision SLAM Benchmarking in Extended Reality - PubMed

https://pubmed.ncbi.nlm.nih.gov/41037556/

[35] [36] [37] [38] ARLO: Augmented Reality Localization Optimization for Real-Time Pose Estimation and Human–Computer Interaction

https://www.mdpi.com/2079-9292/14/7/1478

[39] [40] [41] [42] GitHub - openxrlab/xrslam: OpenXRLab Visual-inertial SLAM Toolbox and Benchmark

https://github.com/openxrlab/xrslam

[44] GPT-4 | OpenAI

https://openai.com/index/gpt-4-research/

[45] [51] [52] LLaVA-Interactive

https://llava-vl.github.io/llava-interactive/

[46] haotian-liu/LLaVA: [NeurIPS'23 Oral] Visual Instruction ... - GitHub

https://github.com/haotian-liu/LLaVA

[47] [48] [49] [50] Vision LLMs: Architecture, Use Cases, and Practical Insights

https://code-b.dev/blog/vision-llm

[53] [54] [60] Text-to-Video Generative AI Models: The Definitive List

https://aibusiness.com/nlp/ai-video-generation-the-supreme-list

[55] [56] [2308.06571] ModelScope Text-to-Video Technical Report

https://arxiv.org/abs/2308.06571

[57] [58] [59] Runway Research | Gen-2: Generate novel videos with text, images or video clips

https://runwayml.com/research/gen-2

[61] [62] [63] [64] [65] [66] [67] [68] [70] [71] [72] [73] [74] [75] Text-driven Motion Generation: Overview, Challenges and Directions

https://arxiv.org/html/2505.09379v1

[69] GuyTevet/motion-diffusion-model: The official PyTorch ... - GitHub

https://github.com/GuyTevet/motion-diffusion-model

[77] GDC 2023 and the State of Unreal - Virtual Producer

https://virtualproducer.io/gdc-2023-and-the-state-of-unreal/

[78] [79] [80] [81] GitHub - uhhhci/immersive-ngp: We present the first open-source VR NERF Unity package that brings high resolution, low-latency, 6-DOF NERF rendering to VR. This work is based on Nvidia's ground breaking instant-ngp technique.

https://github.com/uhhhci/immersive-ngp

[82] Learning Agents Introduction (5.3) | Epic Developer Community

https://dev.epicgames.com/community/learning/tutorials/8OWY/unreal-engine-learning-agents-introduction-5-3

728x90
반응형