OpenAI Sora(소라) 프로젝트 공개를 통해 사실상 그들이 Ai 분야를 얼마나 앞서가고 있는지 보여주었습니다. OpenAI 동영상 Ai 출시는 이미 예고되었지만 이번 중간발표는 누구도 상상하지 못했던 경이로움 그 자체입니다. 공개된 자료를 기반으로 12가지 특이점을 분석합니다.
이 글은 오픈Ai에서 공개한 기술 보고서를 기반으로 작성되었습니다.
글에 사용된 모든 영상과 이미지의 출처임을 밝힙니다.
유연한 샘플링
OpenAI Sora는 가로 1920×1080부터 세로 1080×1920 영상까지, 그리고 그 사이 어떤 사이즈의 영상이라도 가능합니다. 이전 Ai 동영상을 생성하는 방법들은 정해진 종횡비에 한해서만 가능했지만, Sora는 다양한 기기와 상황에 맞춰 영상을 제작할 수 있게 됩니다. 예를 들어, 800×100(8:1) 같은 이례적인 사이즈의 영상이 필요하다면 번거롭게 영상 편집 프로그램을 프로세스에 끼워 넣어야 했겠지만, Sora는 800×100의 영상을 다이렉트로 만들 수 있는 것으로 보입니다.
영상 구성 훈련
영상을 원래 가지고 있던 종횡비를 훼손하지 않고 그대로 배우게 하면, 영상 생성 시 중요한 부분들이 잘리지 않고 전체적으로 잘 보이는 것을 경험을 통해 발견했다고 이야기합니다. Sora는 이런 방법으로 훈련되어, 주인공을 중심으로 보다 나은 구도의 영상을 만들어낼 수 있다고 합니다. 기존에는 정사각형으로 잘라서 훈련하는 방법을 썻다고 하네요.
언어 이해
Sora의 언어 이해는 달리3의 기술을 적용했다고 하는데요. 달리와 마찬가지로, GPT를 활용해 사용자의 프롬프트를 해석하여 길어진 길이의 자세한 캡션으로 변환하고 그것을 비디오 모델에 보냅니다. 이를 통해 Sora는 사용자의 프롬프트를 정확하게 따르는 고품질의 비디오를 생성할 수 있다고 합니다.
OpenAI Sora는 글만으로 비디오를 만드는 것뿐만 아니라, 이미 존재하는 사진이나 동영상을 가지고도 새로운 영상을 만들거나, 수정할 수 있습니다. pika, Lumiere 등 기존 영상 생성기에서도 지원하는 기능이지만 Sora는 한발 더 나아가 다른 세상 차원의 능력을 보여줍니다.
달리 이미지를 비디오로
생성된 비디오의 확장
Sora는 영상의 한 부분을 앞으로 또는 뒤로 확장하여 그 영상이 어떻게 시작되었는지 또는 어떻게 끝날지를 만들어낼 수 있게 됩니다. 예를 들어, 비디오의 끝부분만 있으면, 그 비디오가 어떻게 시작되었는지를 상상해서 새로운 시작 부분을 만들 수 있답니다.
Sora는 영상의 한 부분을 전방 및 후방으로 확장하여 그 비디오가 계속 이어지는 것처럼 만들 수 있습니다. 이렇게 하면 비디오가 끝나지 않고 계속 반복되는 것처럼 보이게 되겠죠.
비디오에서 비디오로 편집하기
Sora는 업로드된 원본 영상에 단지 몇 마디 글로 모습을 통째로 바꿀 수 있습니다. 예를 들어, 영상 속 풍경을 여름에서 겨울로 바꾸거나, 낮에서 밤으로 바꾸는 것처럼 말이죠. 웹페이지에서 이 부분을 체험해 볼 수 있습니다.
비디오 연결하기
Sora로 두 영상을 이어붙여 처음 영상에서 다른 영상으로 이음새 없이 자연스럽게 넘어가게 만들 수 있습니다. 기술 보고서에서 이 부분에 대한 여러 가지 실험 영상을 공개하고 있습니다.
이미지 생성 능력
OpenAI Sora가 현재 타이틀로 밀고 있는 A stylish woman walks down a Tokyo street 영상만 봐도 엄청난 기대감을 갖게 만듭니다. 이 정도 리얼리티는 미드저니 v6에서도 보지 못했는데요. 최근 미드저니의 비디오 Ai 출시 발표가 있었는데 어느 정도의 수준을 보여줄지, Sora와의 대결도 흥미로운 부분입니다. 해상도는 최대 2048×2048까지 가능하다고 합니다.
OpenAI Sora는 실제 세계가 어떻게 존재하는지 모든 것을 계산한다고 하죠. 모델이 특별히 3D 환경이나 객체를 인식하도록 프로그래밍되지 않았음에도 불구하고, 대규모 데이터에서 학습하면서 실제 세계와 유사한 패턴과 동작을 자연스럽게 모사할 수 있게 된다는 것을 의미합니다. OpenAI는 순전히 데이터의 규모라고 이야기합니다. “데이터만 대량으로 때려 박으면 됩니다.”
3차원 일관성 유지
Sora는 마치 실제 카메라로 촬영하는 것처럼, 영상 안에서 카메라의 움직임을 만들 수 있습니다. 비디오 속의 모든 것들이 실제 3차원 공간에서 움직이는 것처럼 생생하게 표현됩니다. 카메라가 이동하고 회전함에 따라 사람과 장면 요소가 3차원 공간을 통해 일관되게 움직입니다.
긴 영상과 사물의 연속성 극복
Sora는 무려 1분의 긴 시간 동안 샘플링이 가능합니다. 중요한 것 중 하나가 바로 주인공들의 시간적 일관성을 유지하는 것이겠죠. Sora는 비디오가 길어도 비디오 속의 사람이나 동물, 물건들이 일관되게 나타나도록 할 수 있답니다. 심지어 그들이 잠깐 보이지 않거나 다른 곳으로 가더라도 말이죠. 또한, 영상에 같은 인물이 여러 번 등장하더라도, 그들이 계속해서 동일하게 보이도록 하는 것도 가능합니다.
행동과 결과의 재현
Sora는 영상에서 사람들이 어떤 행동을 할 때, 그 결과가 영향을 미치는 것처럼 보여줄 수 있습니다. 마치 실제 세계에서 무언가를 하면 일어나는 상호작용들 말이죠. 어찌 보면 당연한 것이지만 기술적으로 보면 구현하기 어려운 과제인듯합니다.
디지털 세계 시뮬레이션
Sora는 실제 비디오를 만들어내는 것뿐만 아니라, 비디오 게임 같은 가상 환경에서 일어나는 일들을 모방하고 만들어낼 수도 있습니다. 예를 들어, 마인크래프트 게임 안에서 플레이어가 어떻게 움직이고, 게임 세계가 어떻게 반응하는지를 Sora가 재현할 수 있다는 말이죠. 이것은 Sora가 단순히 영상을 만드는 것을 넘어서, 그 영상 속에서 일어나는 이야기나 환경을 실시간으로 생성하고 조정할 수 있음을 의미합니다. 예제는 단순히 “마인크래프트”를 거론했을 뿐인데 Sora가 알아서 영상을 생성해 준 것 같습니다. 여기서 ‘제로샷’ 이란 표현은 Sora가 사전에 구체적인 예시를 보지 않고도, 대규모 데이터로 인해 새로운 요구사항에 대응할 수 있었다는 표현 같습니다.
한계점도 있다
오픈Ai는 소라의 한계점도 분명히 공개하고 있습니다. 예를 들어, 유리가 깨지는 장면이나 음식을 먹는 장면과 같은 비교적 단순하게 보이는 상황들조차도 때때로 잘못 표현될 수 있는데요. 이런 문제를 해결하고 개선하기 위해 계속해서 노력 중이라고 밝혔습니다.
OpenAI SORA 안전 정책
이러한 발전은 기술적인 관점에서 특이점, 즉 인공 지능이 인간의 지능을 뛰어넘는 시점에 접근하고 있음을 시사하고 있습니다. 그러나 이러한 기술이 가져올 수 있는 사회적, 윤리적 영향에 대해 신중하게 고민해야 합니다. AI 생성 콘텐츠의 신뢰성과 출처를 명확히 할 수 있는 메커니즘, 그리고 잘못된 정보나 증오 콘텐츠의 확산을 막을 수 있는 안전 조치가 필수입니다. OpenAI는 Sora에 대한 안전성에 대한 이야기도 언급하고 있습니다.
- 잘못된 정보나 혐오 콘텐츠 같은 위험 요소를 찾아내는 데 레드 팀원들과 협력
- OpenAI Sora가 만든 비디오를 식별할 수 있는 감지 도구
- 모델을 배포할 경우 C2PA 메타데이터를 포함
- 사용자의 프롬프트가 정책에 위배되지 않는지 검열하는 필터
OpenAI Sora 측에서는 안전 문제에 만반의 준비를 하고 있지만 초기에는 완벽할 수는 없으며, Sora 출시 이후에 살제 사용 사례를 면밀히 관찰하면서 안전 시스템을 지속적으로 개선해 나가는 것이 중요하다고 강조합니다.
OpenAI SORA 출시?
지금은 몇몇 시각 예술가들, 디자이너들, 그리고 영화 제작자들에게만 접근 권한을 허용해 피드백을 받고 있다고 합니다. X(트위터 @billpeeb)를 검색해 보면 접근 권한이 있는 분들의 여러 가지 영상들이 올라와 있습니다. 아직 일반 사용자들에게는 프로그램이 공개되지 않았습니다. 출시일도 아직 구체적인 정보는 없습니다.
Sora는 ‘하늘’의 일본말이라고 합니다.