MUNICH (IT BOLTWISE) – Pendekatan baru memungkinkan alat AI seperti Stable Diffusion dan DALL-E-3 menyederhanakan proses pembuatan gambar dalam satu langkah, sambil mempertahankan atau bahkan meningkatkan kualitas gambar dan meningkatkan kecepatan dalam prosesnya. Meningkat 30 kali lipat. Peneliti MIT CSAIL telah membuat kemajuan signifikan dengan menyederhanakan model difusi multi-langkah tradisional menjadi satu langkah.
Di era kecerdasan buatan saat ini, komputer dapat menciptakan “seni” sendiri menggunakan model difusi yang secara bertahap mengubah struktur menjadi keadaan awalnya berisik hingga muncul gambar atau video yang jelas. Model-model ini tiba-tiba mendapat tempat di meja semua orang: tulis beberapa kata dan langsung alami adegan mimpi di persimpangan antara kenyataan dan fantasi, yang memicu aliran dopamin. Di balik layar, ini adalah proses yang rumit dan memakan waktu yang memerlukan banyak iterasi algoritme untuk menyempurnakan gambar.
Para peneliti di Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) MIT telah menyajikan kerangka kerja baru yang menyederhanakan proses multi-langkah model difusi tradisional menjadi satu langkah, mengatasi keterbatasan sebelumnya. Hal ini dicapai melalui semacam model guru-siswa: model komputer baru diajarkan untuk meniru perilaku arketipe yang lebih kompleks yang menghasilkan gambar.
Pendekatan ini, yang dikenal sebagai distilasi konformal distribusi (DMD), menjaga kualitas gambar yang dihasilkan dan memungkinkan pembuatannya lebih cepat.
“Pekerjaan kami adalah metode baru yang mempercepat model propagasi yang ada seperti Difusi Stabil dan DALL-E-3 sebanyak 30 kali lipat,” kata Tianwei Yin, seorang mahasiswa pascasarjana MIT di bidang teknik elektro dan ilmu komputer, afiliasi dari CSAIL, dan the peneliti utama.”. Dari kerangka DMD.
“Kemajuan ini tidak hanya mengurangi waktu komputasi secara signifikan, namun juga mempertahankan atau bahkan melampaui kualitas konten visual yang dihasilkan. Secara teori, pendekatan ini menggabungkan prinsip jaringan permusuhan generatif (GAN) dengan prinsip model difusi dan mencapai pembuatan konten visual dalam skala besar.” satu langkah.” – Berbeda dengan 100 langkah optimasi berulang yang dibutuhkan model difusi saat ini, ini berpotensi menjadi metode pemodelan generatif baru yang cepat dan baik.
Model difusi satu langkah dapat meningkatkan alat desain dengan memungkinkan pembuatan konten lebih cepat dan berpotensi mendukung kemajuan dalam penemuan obat dan pemodelan 3D, yang mengutamakan kecepatan dan efisiensi.
DMD secara cerdik mengandung dua komponen. Pertama, ia menggunakan kerugian regresi penstabil gambar untuk memastikan perkiraan regularisasi ruang gambar dan membuat pelatihan lebih stabil.
Kemudian menggunakan distribusi pencocokan kerugian, yang memastikan bahwa probabilitas menghasilkan gambar tertentu menggunakan model siswa sesuai dengan frekuensi kemunculan sebenarnya. Untuk melakukan hal ini, ia menggunakan dua model propagasi yang bertindak sebagai panduan dan membantu sistem memahami perbedaan antara gambar nyata dan gambar yang dihasilkan, sehingga memungkinkan pelatihan generator satu langkah yang cepat.
Sistem mencapai pembangkitan yang lebih cepat dengan melatih jaringan baru untuk mengurangi perbedaan distribusi antara gambar yang dihasilkan dan gambar dalam kumpulan data pelatihan yang digunakan oleh model difusi tradisional. “Wawasan utama kami adalah memperkirakan gradien yang memandu optimalisasi model baru menggunakan dua model difusi,” kata Yin.
“Dengan cara ini, kami mengekstrak pengetahuan dari model asli yang lebih kompleks ke model yang lebih sederhana dan lebih cepat, sehingga menghindari masalah ketidakstabilan dan keruntuhan mode yang umum terjadi di GAN.”
Yin dan rekan-rekannya menggunakan jaringan terlatih untuk model siswa baru, sehingga menyederhanakan prosesnya. Dengan menyalin dan menyesuaikan parameter dari model asli, tim mencapai konvergensi pelatihan cepat dari model baru, yang mampu menghasilkan gambar berkualitas tinggi dengan fondasi arsitektur yang sama. “Hal ini memungkinkan untuk menggabungkan lebih banyak perbaikan sistem berdasarkan arsitektur asli untuk lebih mempercepat proses konstruksi,” tambah Yin.
Ketika diuji dengan metode umum, menggunakan berbagai parameter, DMD telah menunjukkan kinerja yang konsisten. Dalam standar populer untuk menghasilkan gambar berdasarkan kategori yang ditentukan di ImageNet, DMD adalah teknik difusi satu langkah pertama yang menghasilkan gambar yang sangat mirip dengan arketipe yang lebih kompleks, dengan jarak awal Fréchet (FID) yang sangat dekat hanya 0,3, yang sangat mengesankan Karena FID adalah tentang mengevaluasi kualitas dan variasi gambar yang dibuat.
Selain itu, DMD unggul dalam pembuatan teks-ke-gambar sintetis dan mencapai kinerja tertinggi dalam pembuatan satu langkah. Masih ada sedikit kesenjangan dalam kualitas ketika menangani aplikasi teks-ke-gambar yang sulit, yang menunjukkan masih ada ruang untuk perbaikan.
Selain itu, performa gambar yang dihasilkan oleh DMD secara intrinsik terkait dengan kemampuan model fitur yang digunakan selama proses distilasi. Dalam model saat ini, dengan menggunakan Stable Diffusion v1.5 sebagai model guru, model siswa mewarisi keterbatasan seperti menampilkan deskripsi detail teks dan wajah kecil, yang menunjukkan bahwa model guru yang lebih canggih dapat meningkatkan gambar yang dihasilkan oleh DMD.
“Mengurangi jumlah iterasi telah menjadi hal yang paling penting dalam model difusi sejak awal,” kata Fredo Durand, profesor teknik elektro dan ilmu komputer di MIT, peneliti utama di CSAIL dan penulis utama studi tersebut. “Kami sangat gembira akhirnya dapat menghasilkan gambar dalam satu langkah, yang akan mengurangi biaya komputasi secara signifikan dan mempercepat prosesnya.”
kata Alexei Efros, profesor teknik elektro dan ilmu komputer di Universitas California, Berkeley, yang tidak terlibat dalam penelitian ini. “Saya berharap karya ini membuka kemungkinan menarik untuk pengeditan visual real-time berkualitas tinggi.”
melihat: Sebagian dari teks ini mungkin dihasilkan menggunakan kecerdasan buatan.
Silakan kirimkan tambahan dan informasi apa pun kepada tim redaksi melalui email ke de-info[at]itu-boltwise.de
“Coffee pioneer. Social media ninja. Unrepentant web teacher. Friendly music fan. Alcohol fanatic.”
More Stories
Intel dilaporkan ingin menghadapi Strix Halo AMD dengan GPU raksasanya sendiri di prosesornya
Pembaruan BIOS: Penyerang dapat menonaktifkan Boot Aman pada laptop Alienware
Hari khusus perempuan di Oberhausen