مدل هوش مصنوعی ChatGPT Images 2.0 رونمایی شد؛ رقیب قدرتمند نانو بنانا

یوسف اسفندیاری

۲ اردیبهشت ۱۴۰۵ | ۱۷:۱۳ زمان مورد نیاز برای مطالعه: ۲ دقیقه

شرکت OpenAI به تازگی از نسخه جدید و ارتقایافته مدل تولید تصویر خود با نام ChatGPT Images 2.0 رونمایی کرده است. این سیستم هوش مصنوعی، که هم‌اکنون برای تمامی کاربران پلتفرم‌های این شرکت در دسترس قرار دارد، پیشرفت‌های چشمگیری را در زمینه درک دستورات متنی و خلق تصاویر پیچیده به نمایش می‌گذارد. همزمان با این رویداد، شرکت سازنده در حال توسعه پروژه جدیدی تحت عنوان Codex Labs برای مقیاس‌پذیری بیشتر هوش مصنوعی در محیط‌های سازمانی است. هدف اصلی از توسعه این ابزار جدید، رقابت مستقیم با محصولات مشابهی نظیر مدل نانو بنانا گوگل و سیستم MAI-Image-2 مایکروسافت عنوان می‌شود.

یکی از برجسته‌ترین قابلیت‌های مدل ChatGPT Images 2.0، توانایی آن در تولید متون خوانا و دقیق درون تصاویر است. در حالی که مدل‌های پیشین معمولا در این بخش با ضعف‌های جدی روبه‌رو بودند، نسخه جدید نه تنها در زبان‌های لاتین عملکرد بی‌نقصی دارد، بلکه در پشتیبانی از زبان‌های غیرلاتین مانند ژاپنی، کره‌ای، چینی، هندی و بنگالی نیز پیشرفت قابل‌توجهی را ثبت کرده است. به گفته توسعه‌دهندگان، این سیستم اکنون می‌تواند عناصر ظریفی مانند متون ریز، نمادهای گرافیکی و رابط‌های کاربری را با دقت بسیار بالایی رندر کند.

این مدل تصویرساز جدید در دو حالت متفاوت با نام‌های فوری (Instant) و تفکر (Thinking) عرضه می‌شود. کاربرانی که دارای اشتراک‌های پولی مانند پلاس، پرو، تجاری و سازمانی هستند، می‌توانند از قابلیت‌های استدلالی نسخه تفکر بهره‌مند شوند. در این حالت، هوش مصنوعی پیش از تولید تصویر، ابتدا ساختار آن را تحلیل کرده و حتی می‌تواند برای یافتن اطلاعات به‌روز، در فضای وب جستجو کند. این فرآیند استدلالی به سیستم اجازه می‌دهد تا هشت تصویر مرتبط را به صورت همزمان خلق کند، در حالی که ثبات شخصیت‌ها، اشیا و سبک بصری در تمام صحنه‌ها به دقت حفظ می‌شود.

از دیگر مشخصات فنی ChatGPT Images 2.0 می‌توان به پشتیبانی از رزولوشن‌های بالا تا سقف 2K اشاره کرد. همچنین، انعطاف‌پذیری در انتخاب نسبت‌های تصویر افزایش یافته است؛ به طوری که طراحان می‌توانند خروجی‌هایی با فرمت‌های بسیار عریض 3:1 یا تصاویر عمودی 1:3 تولید کنند. در مقایسه با خروجی‌هایی که سیستم DALL-E 3 دو سال پیش تولید می‌کرد، اکنون این مدل می‌تواند طرح‌هایی نظیر منوی رستوران‌ها یا استوری‌بوردهای سینمایی را خلق کند که مستقیما در محیط‌های واقعی قابل استفاده هستند.

علاوه بر دسترسی عمومی برای کاربران، شرکت سازنده رابط برنامه‌نویسی اپلیکیشن (API) اختصاصی این مدل را با نام gpt-image-2 منتشر کرده است که هزینه استفاده از آن بر اساس کیفیت و رزولوشن درخواستی محاسبه می‌شود. این به‌روزرسانی ابزارهای طراحی مبتنی بر هوش مصنوعی را وارد مرحله جدیدی کرده است.