스테이블 디퓨전 입문 전에 많은 분들이 궁금해하시는 부분이 바로 컴퓨터 사양입니다. 일반적으로 고사양의 그래픽 카드가 필요하다는 사실은 알고 있지만 구체적으로 실사를 그리려면 얼마나 좋은 사양의 컴퓨터를 갖춰야 하는지 묻는 질문글을 자주 발견합니다. 본 글에서는 스테이블 디퓨전 실사(3D), 반실사(2.5D), 애니메이션(2D)의 차이와 컴퓨터 성능 요구사항에 대해 살펴보고자 합니다.
스테이블 디퓨전 실사 vs 애니메이션
어떤 분들은 스테이블 디퓨전으로 실제 사진같은 그림을 그려내고자 한다면, 또 어떤 분들은 말 그대로 2D 그림을 그려내고 싶기도 합니다. 또 어떤 분들은 실사와 애니메이션의 중간인 반실사 그림을 그리기도 합니다. 보통 실사 그림을 3D, 애니메이션 그림을 2D, 그 중간 어딘가 실사같기도 하고 애니같기도 한 반실사 그림을 2.5D라고 부릅니다. 반실사 중에서도 실사에 더욱 가까울수록 2.7D, 2.8D 이런 식으로 3D에 가까운 값으로 나타내곤 합니다.
사람이 직접 그림을 그리면 보통 2D보다는 3D로 갈수록 더욱 작업 난이도가 올라간다고 생각하기 일수입니다. 그래서인지 AI 또한 실사를 그릴 때 조금 더 자원을 많이 요구할 것만 같은데요, 과연 진짜 그럴까요? 그렇다면 실사를 잘 그리기 위해서는 컴퓨터 사양이 조금 더 높아야만 할까요? 결론부터 말씀드리면 그렇지 않습니다. 실사든 반실사든 원하는 그림체를 구현할 수 있는 모델을 잘 선택하면 컴퓨터 사양에 관계없이 동일한 성능으로 이미지를 만들어낼 수 있습니다.
체크포인트(모델)
먼저 모델에 따라 실사, 반실사 및 애니메이션의 차이가 나타나는 부분을 이해하기 위해 기초적인 스테이블 디퓨전의 동작 원리를 이해할 필요가 있습니다. 우리가 사용하는 스테이블 디퓨전 모델을 아주 간략하게 살펴보면 아래와 같은 원리로 학습되고 이미지 생성에 사용되고 있습니다.
학습 단게에서는 원본 이미지에 임의로 노이즈를 추가한 뒤 노이즈와 원번 이미지간의 관계성을 인공 신경망에 학습시키는 것입니다. 한편 이미지 생성 단계에서는 이렇게 학습된 모델에게 노이즈만 주고 단어들을 던져주면 인공 신경망에 학습된 대로 노이즈로부터 반대로 원본 이미지를 구현(복구)해내는 것입니다.
즉, 스테이블 디퓨전은 사람이 그림을 그릴 때 아무 것도 없는 도화지에서 밑그림부터 스케치, 채색 등 차근차근 그려내는 것이 아니라, 특정 노이즈 이미지로부터 모델에 학습된 역추산 과정을 거쳐 이미지를 그려내는 것입니다. 따라서 스테이블 디퓨전 실사를 이미지를 그리든, 애니메이션을 그리든 컴퓨터 성능의 차이가 발생하지는 않는 것이죠. 단지 해당 모델의 노이즈 > 원본 복구 과정이 다를 뿐입니다.
따라서 스테이블 디퓨전 실사를 그리고 싶으신 분들은 실사가 학습된 모델을, 반실사를 그리고 싶은 분들은 반실사가 학습된 모델을, 애니메이션을 그리고 싶은 분들은 반실사가 학습된 모델을 사용하기만 하면 되는 것입니다.
컴퓨터 요구 사항
그렇다면 스테이블 디퓨전 실사를 그릴 때 큰 불편함 없이 사용하려면 어느정도의 사양이 필요할까요?
CPU & RAM
스테이블 디퓨전으로 그림을 생성할 때 성능에 가장 큰 영향을 미치는 부분이 바로 GPU입니다. CPU와 RAM의 경우 그림 생성 속도에는 큰 영향을 주지 못하므로, Intel 8세대 i5 이상, 8gb 이상의 RAM 정도만 확보되어도 충분합니다.
GPU 속도
스테이블 디퓨전에서 그림을 그려내는 속도는 전적으로 GPU 속도에 의존합니다. 아래는 해외 사이트 중 tom’s hardware라는 곳에서 제공하는 스테이블 디퓨전 GPU 벤치마크 결과로 가독성을 위해 RTX 3060 이상만 추린 데이터입니다.
Automatic1111 WebUI에서 512×512 해상도 이미지를 50 스텝으로 생성할 때 생성 속도를 비교한 것으로, RTX3060이 약18(17.81)인 반면 RTX4090이 대략 4배이상 빠른 75(75.13)를 보이고 있습니다. RTX3060 기준으로 512×512 해상도 그림을 그려내는데 대략 4~7초 정도 소요됩니다.
GPU VRAM
업스케일링을 통해 그림의 해상도를 높게 그려내거나, 그림을 그릴 때 보조적으로 필요한 스테이블 디퓨전의 여러가지 확장 기능을 많이 사용할수록 그래픽카드의 그래픽 메모리 용량이 중요합니다. 최근들어 신기술이 발표될 때마다 요구되는 최소 VRAM 용량이 증가하고 있기 때문에, 최소 12gb 이상을 확보해주시는 것을 추천드립니다.
꼭 NVIDIA GPU여야 하나?
AI 관련 연구와 개발 상황은 사실상 NVIDIA 그래픽카드가 독점하고 있다고 봐도 무방합니다. 현재 딥러닝, 머신러닝에 기반을 둔 모든 AI 관련 학습이 NVIDIA의 CUDA 코어를 통한 병렬연산이 핵심이기 때문입니다. 스테이블 디퓨전 또한 마찬가지로 NVIDIA GPU의 병렬연산을 기반으로 하고 있기 때문에, AMD 또는 애플 실리콘 등의 다른 GPU로는 시도하지 않는 것이 낫습니다. GPU 구매가 부담스럽다면 차라리 가상 데스크탑 또는 온라인으로 NVIDIA GPU를 임대해서 사용하는 것을 고려해보는 것도 좋은 생각입니다.