OpenAI از Sora رونمایی کرد؛ مدل هوش مصنوعی برای تبدیل متن به ویدیو

یوسف اسفندیاری

۲۷ بهمن ۱۴۰۲ | ۰۷:۳۰ زمان مورد نیاز برای مطالعه: ۱ دقیقه

شب گذشته شرکت OpenAI از مدل جدید برای تولید ویدیو به نام Sora رونمایی کرد که با استفاده از دستورهای متنی، می‌تواند ویدیو‌های واقع‌گرایانه‌ی فوق‌العاده‌ای ایجاد کند. این شرکت اعلام کرده مدل موردنظر قادر است ویدیو‌هایی تا حداکثر زمان 1 دقیقه را تحویل کاربران دهد.

بر اساس اعلام OpenAI در پستی که به معرفی این مدل اختصاص یافته، Sora قادر است صحنه‌های پیچیده‌ای با چندین شخصیت، انواع حرکات خاص و جزئیات دقیق موضوع و پس‌زمینه را به وجود آورد. علاوه بر تولید ویدیو بر اساس متن، مدل Sora قادر است بر اساس یک تصویر ثابت ویدیو بسازد و یا فریم‌های گمشده یک ویدیوی موجود را پر کند و حتی طول آن را افزایش دهد. با وجود اینکه با کمی دقت می‌توانیم متوجه مصنوعی بودن ویدیوها شویم، ولی نسبت به مدل‌های مشابه ویدیو‌های شگفت‌انگیزی ارائه می‌دهد.

در ابتدا این مدل‌های هوش مصنوعی تبدیل متن به عکس بودند که سروصدای زیادی راه می‌انداختند. اما در یک سال اخیر، با حجم شگفت‌انگیزی از پیشرفت در زمینه‌ی تبدیل متن به ویدیو روبرو شده‌ایم. شرکت‌هایی مانند Runway و Pika مدل‌های تبدیل متن به ویدئوی چشمگیر خود را نشان داده‌اند و Lumiere گوگل نیز یکی از رقبای اصلی OpenAI در این زمینه به شمار می‌رود. Lumiere مشابه Sora، ابزارهای متن به ویدئو را به کاربران ارائه می‌دهد و همچنین به آنها امکان می‌دهد از یک تصویر ثابت ویدئو ایجاد کنند.

در حال حاضر، دسترسی به مدل Sora تنها برای افراد گروهی موسوم به «تیم قرمز» امکان‌پذیر است که به ارزیابی آسیب‌ها و خطرات احتمالی این مدل می‌پردازند. OpenAI همچنین به برخی از هنرمندان، طراحان و فیلم‌سازان برای دریافت بازخورد، دسترسی به این مدل را ارائه داده است. این شرکت تأکید می‌کند که ممکن است مدل فعلی به درستی فیزیک یک صحنه پیچیده را شبیه‌سازی نکند و به درستی برخی از موارد علت و معلول را تفسیر نکند.