2023년 4월 18일 화요일

Stable Diffusion: 텍스트를 이미지로 바꾸는 혁신

 

최근 딥러닝과 인공지능이 발전함에 따라 고품질의 텍스트-이미지 생성을 가능하게 하는 획기적인 딥러닝 모델로 스테이블 디퓨전(Stable Diffusion)이 등장했습니다. 2022년에 학계 연구자 및 비영리 단체와 협력하여 Stability AI가 개발한 이 혁신적인 기술은 텍스트 프롬프트에 따라 이미지 생성 및 변환, 인페인팅, 아웃페인팅 등으로 광범위하게 활용되고 있습니다

 

Stable Diffusion은 뮌헨(Munich) 공과대학교의 CompVis 그룹이 개발한 잠재 확산 모델(LDM, latent diffusion model) 아키텍처를 사용합니다. LDM은 단계별 프로세스를 통해 사진에서 노이즈를 제거하는 방식으로 작동합니다. LDM은 이미지를 압축하는 도구, 이미지 정리를 도와주는 도구, 텍스트 인코더(선택)로 구성됩니다. 노이즈 제거 단계는 텍스트, 이미지 또는 기타 양식에 따라 유연하게 조정할 수 있습니다.

 

웹에서 수집한 50억 개의 이미지-텍스트 쌍이 포함된 LAION-5B 데이터 세트를 기반으로 Stable Diffusion을 학습시켰습니다. 데이터 세트는 언어, 해상도, 워터마크 가능성, 심미적 점수를 기준으로 필터링되었습니다. 이 모델은 Amazon Web Services(AWS)에서 총 15GPU 시간, 60만 달러의 비용으로 256개의 Nvidia A100 GPU를 사용하여 훈련되었습니다.

 

스테이블 디퓨전은 인상적인 기능에도 불구하고 몇 가지 한계에 직면해 있습니다. 초기 출시 모델은 512x512 해상도 이미지로 학습되었기 때문에 사용자 사양이 이 예상 해상도에서 벗어날 경우 이미지 품질이 저하됩니다. 또한 이 모델은 LAION 데이터베이스의 데이터 품질이 좋지 않아 정확한 사람의 팔다리를 생성하는 데 어려움을 겪었습니다. 마지막으로, 이 모델은 주로 영어 설명이 포함된 이미지로 학습되었기 때문에 본질적으로 서구적 관점에 편향되어 있습니다.

 

이러한 한계를 극복하기 위해 최종 사용자는 추가 학습을 구현하여 보다 구체적인 사용 사례에 맞게 모델을 미세 조정할 수 있습니다. , 더 많은 예제를 사용하거나, 특별한 도구를 사용하여 조정할 수 있습니다.

ChatGPT: US lawyer admits using AI for case research

Summary A New York lawyer faces a court hearing after using AI tool, ChatGPT, for legal research. The lawyer, unaware that ChatGPT can gener...