مقایسه چت‌جی‌پی‌تی و میدجورنی با ۷ پرامپت

آزاده باقری

۸ اردیبهشت ۱۴۰۴ | ۲۰:۰۰ زمان مورد نیاز برای مطالعه: ۱۱ دقیقه

با ظهور انواع هوش‌‌های مصنوعی و بحث بر سر انتخاب بهترین هوش مصنوعی، حالا دو غول هوش مصنوعی ساخت عکس در برابر هم قرار گرفته‌اند. برنامه هوش مصنوعی مید جورنی (Midjourney) و چت‌جی‌پی‌تی (ChatGPT) اخیراً نسخه‌های جدیدی از قابلیت‌های تولید تصویر مبتنی بر هوش مصنوعی خود را منتشر کرده‌اند. از نظر تاریخی، این دو هوش مصنوعی از بهترین‌های موجود در فضای تولید تصویر بوده‌اند. اما کدام هوش مصنوعی امکانات تصویرسازی بهتری ارائه می‌دهد؟ Midjourney V7 یا تصاویری که ChatGPT 4o می‌سازد؟ در ادامه برنده مقایسه چت جی پی تی و میدجورنی مشخص شده است.

در این مقاله ChatGPT و Midjourney با استفاده از هفت پرامپت مختلف در برابر هم قرار گرفته‌اند؛ هدف از این رویارویی این است که ببینیم بهترین تولیدکننده تصویر هوش مصنوعی کدام است. این آزمایش‌ها همه چیز را از توانایی مدل در درک مفهوم گرفته تا بازآفرینی اشکال پیچیده و تفکر خلاقانه برای ایجاد تصاویر مورد بررسی قرار می‌دهند.

لپ تاپ 16 اینچی ایسوس مدل TUF Gaming F16 FX608JMR-F16I75060-i7 14650HX-RTX5060 8GB-32GB DDR5 5600MHz-1TB SSD-FHD 165Hz-W

332,000,000

تومان

لپ تاپ 15.6 اینچی ایسوس مدل Vivobook 15 X1504VA-BQ4675-i3 1315U-8GB DDR4 3200MHz-512GB SSD-IPS

75,000,000

تومان

خرید لپ تاپ از دیجی کالا

مشاهده همه

فهرست محتوا

قوانین مقایسه ChatGPT وMidjourney V7
۱. فوتورئالیسم (واقع‌گرایی عکاسانه)
۲. پرامپت‌های پیچیده
۳. تطبیق‌دهی با تصاویر واقعی
۴. پوسترهای فیلم
۵. تولید متن
۶. دست‌ها
۷. غذا

قوانین مقایسه ChatGPT و Midjourney V7

در حالی که هر دو مدل این هوش‌های مصنوعی می‌توانند تصویر تولید کنند، دشوار است که این رقابت را منصفانه برگزار کرد؛ به این دلیل که حجم تنظیماتی که Midjourney امکان تغییر آن‌ها را برای کاربر فراهم می‌کند، بسیار زیاد است. با این حال، با در نظر گرفتن این نکته، مراحل اولیه رقابت را آغاز می‌کنیم. در این قیاس برای Midjourney، از نسخه ۷ استفاده کردیم. این آخرین نسخه آن است اما هنوز در مرحله آزمایشی قرار دارد. همچنین پرامپت این آزمایش را با روشن و خاموش بودن قابلیت شخصی‌سازی (تنظیماتی که سبک‌های هنری مورد علاقه شما را به تصاویر اضافه می‌کند) امتحان کردیم. Midjourney در مقایسه با یک تصویری که ChatGPT ارائه می‌کند، چهار نسخه از هر تصویر را برای کاربر تولید می‌کند. در همه موارد آزمایش مقایسه چت جی پی تی و میدجورنی، ما بهترین تصویر را از میان چهار اثر پیشنهادی Midjourney انتخاب کردیم و نسخه‌ی با کیفیت بالای آن را دانلود کردیم.

۱. فوتورئالیسم (واقع‌گرایی عکاسانه)

دو تصویر تولید شده توسط ChatGPT و Midjourney از یک پافین (نوعی پرنده)

چپ: ChatGPT / راست: Midjourney

پرامپت: یک تصویر فوتورئالیستی از یک پرنده پافین که بر فراز صخره‌ای که آب‌ها در پایین آن قرار گرفته‌اند، ایجاد کنید، در حالی که پرنده پرواز می‌کند. در پس‌زمینه یک رشته کوه وجود دارد. روز آفتابی است و در پایین‌دست پرنده پافین، دو نفر با دوربین دوچشمی به او نگاه می‌کنند.

نتیجه ChatGPT:

این تصویر تقریباً به تمام خواسته‌های مطرح شده در پرامپت ما پاسخ می‌دهد. اگرچه ممکن است تصویر کمی بیش از حد اشباع شده باشد (سچوریشن بالا)، اما هنوز فوتورئالیستی است. یک پرنده پافین بر فراز صخره‌ای پرواز می‌کند، آب در پایین وجود دارد و یک رشته کوه در پس‌زمینه دیده می‌شود. علاوه بر این نکات، تصویر تولید شده، دو نفری را که با دوربین دوچشمی به او نگاه می‌کنند هم شامل می‌شود. البته، آن‌ها مستقیماً به پافین نگاه نمی‌کنند، بدون در نظر گرفن این نکته تصویر کاملاً دقیق است.

نتیجه Midjourney:

در این تصویر نکات زیادی وجود دارد. نمی‌توانیم منکر شویم که همه چیزهایی که در پرامپت وچود داشت، لحاظ شده است. کوه‌ها در پس‌زمینه، یک پرنده پافین، دو نفر با دوربین دوچشمی و حتی آب و کوه‌ها در پس‌زمینه. با این حال، بیایید به نکته اصلی تصویر بپردازیم. پرنده پافین در این تصویر غول‌پیکر است و در صورت لزوم می‌تواند با گودزیلا مبارزه کند. تصویر همچنین واقعاً فوتورئالیستی نیست و بیشتر شبیه به یک نقاشی رنگ روغن بزرگ به نظر می‌رسد. حتی با صرف نظر از مشکلات اندازه پرنده، هنوز فکر می‌کنیم که ChatGPT نشانه‌ها را با دقت بیشتری درک کرده است. هر دو مدل آب را در پایین صخره ایجاد کردند، اما چت جی پی تی مفهوم کلی پرامپت را دقیق‌تر درک کرد.

برنده: ChatGPT در این مورد تقریباً از هر نظر پیروز می‌شود. میدجرنی در مورد پرنده پافین در آسمان بیش از حد مفهوم را اشتباه فهمیده است و از سوی دیگر، ChatGPT کاملاً به خواسته ما عمل کرده است، پس برنده مقایسه چت جی پی تی و میدجورنی بی‌شک ChatGPT است.

۲. پرامپت‌های پیچیده

تصاویر چت جی پی تی ChatGPT و Midjourney میدجورنی از بازارها

چپ: ChatGPT / راست: Midjourney

پرامپت: یک بازار بزرگ با یک غرفه فروش میوه، یک غرفه فروش لباس و یک غرفه فروش سرامیک را در نظر بگیرید. در پس‌زمینه یک رودخانه و در دوردست یک جنگل وجود دارد. مردی در مقابل یکی از غرفه‌ها به زنی پول می‌دهد و دو کودک در میان بازار می‌دوند. در آسمان یک بالون هوای گرم هم دیده می‌شود.

نتیجه ChatGPT:

در این پرامپت اطلاعات زیادی وجود داشت و نادیده گرفتن برخی از آن‌ها برای مدل هوش مصنوعی آسان و محتمل بود. با این حال، تمام جزئیات کلیدی در پاسخ چت جی پی تی وجود دارد. بالون هوای گرم، دو کودکی که در میان بازار می‌دوند و مردی که به زنی پول می‌دهد. همچنین مشخص است که هوا گرم است و می‌توانید بازاری را ببینید که میوه، سرامیک و لباس می‌فروشد. با وجود تمام جزئیات مورد نیاز، ChatGPT یک تصویر با کیفیت و بسیار دقیق تولید کرد.

نتیجه Midjourney:

در حالی که Midjourney تصویر مدنظر پرامپت را تولید کرد، جزئیات آن بسیار کوچک بودند و دقت کافی را نداشتند. برای مثال هنگام زوم کردن، چهره‌ها کامل نیستند، دست‌های دو نفر در هم ادغام شده‌اند و بیشتر پس‌زمینه تار است.

برنده: برد این مرحله از مقایسه چت جی پی تی و میدجورنی را ChatGPT از آن خود می‌کند. در حالی که هر دو تصویر در نگاه اول درست به نظر می‌رسند و بیشتر ویژگی‌های درخواستی را شامل می‌شوند، Midjourney جزئیات دقیق زیادی را از دست داده است.

۳. تطبیق‌دهی با تصاویر واقعی

تصاویر تولید شده توسط ChatGPT و Midjourney با سبک پرتره‌های رنسانس

چپ: ChatGPT / راست: Midjourney

پرامپت: این تصویر را به یک پرتره رنسانسی تبدیل کنید.

نتیجه ChatGPT:

با این پرامپت، ChatGPT اساساً تصویر داده شده را به تصویری به سبک مونالیزا تبدیل کرد. بازهم واقعاً نمی‌توان از کار این هوش مصنوعی ایرادی گرفت. دقیقاً عکسی را که به او ارائه دادیم، به سبک دوران رنسانس درآورد. همچنین به خوبی ویژگی‌هایی مانند هدفون، پس‌زمینه و لباس‌هایی را که پوشیده بود، حفظ کرده و در عین حال به موضوع اصلی پایبند بوده است.

نتیجه Midjourney:

این بهترین تلاش از چهار تلاشی بود که Midjourney به ما ارائه داد. می‌بینیم که مدل در تلاش برای چه چیزی بوده است. اما نتوانست به آن برسد. در حین انجام آزمایش حتی سعی کردیم پرامپت را کمی تغییر دهیم تا مشخص شود که آن را به سبک نقاشی می‌خواهیم، اما این کار اوضاع را بدتر کرد. ما خوشبینانه فرض می‌کنیم حاشیه قهوه‌ای هم قرار است با موضوع مطابقت داشته باشد، تشخیص آن واقعا دشوار است.

برنده: ChatGPT ثابت کرده بود که این مدل جدیدش در ایجاد تغییرات خلاقانه بر روی تصاویر شخصی بسیار موفق است و این آزمایش هم اثباتی دیگر بر این مدعاست. دقیقاً همان چیزی را که خواستیم انجام داد. به نظر می‌رسد Midjourney در نیمه راه تسلیم شده است. پس برنده مقایسه چت‌جی‌پی‌تی و میدجورنی مشخص است.

۴. پوسترهای فیلم

دو تصویر تولید شده توسط ChatGPT و Midjourney از پوسترهای فیلم‌های آینده‌نگر

چپ: ChatGPT / راست: Midjourney

پرامپت: یک پوستر هیجان‌انگیز برای این فیلم ایجاد کنید: یک فیلم سایبرپانک که در سال ۲۲۵۰ اتفاق می‌افتد. داستان در یک شهر بزرگ و پرجنب‌وجوش روایت می‌شود. فیلم درباره کارآگاهی است که برای جلوگیری از وقوع جنگی در آینده به گذشته فرستاده می‌شود.

نتیجه ChatGPT:

این هیجان‌انگیزترین پوستر ممکن نیست، اما ChatGPT قطعاً در این مورد به خواسته ما عمل کرد. کارآگاه ما در مرکز صحنه قرار دارد، با شهری شلوغ (و نسبتاً آینده‌نگرانه) در پس‌زمینه. همچنین پرامپت را به عنوان متنی کاملاً تحت‌اللفظی برداشت کرد و به داده‌های درخواستی یک شعار هم اضافه کرد. به طور کلی، چشمگیر است. کارآگاه با سایه نور نئون در پشتش با جزئیات نمایش داده شده، یک ماشین پرنده در آسمان وجود دارد، اگر چه کمی خام‌دستانه رسم شده. همچنین آسمان‌خراش‌های آینده‌نگر زیادی در پس زمینه دیده می‌شود.

نتیجه Midjourney:

در واقع چیزی که میدجورنی در جزئیات کم دارد را سعی می‌کند با سبک خود جبران می‌کند. مسلماً آسمان‌خراش‌ها در اینجا بهتر به نظر می‌رسند و در این تصویر چیزهای بیشتری برای دیدن وجود دارد. متأسفانه، Midjourney با جزئیات تار خود از جت جی پی تی عقب می‌ماند. تصاویر روی زمین در هم آمیخته شده‌اند، ماشین و موتور سیکلت دچار اشکال شده‌اند و جزئیات عجیب و غریب زیادی در پس‌زمینه وجود دارد. در حالی که این پوستر جالب‌تر است، اما مشکلات زیادی در آن وجود دارد.

برنده: ChatGPT تمام خواسته‌های ما را انجام داد و پوستری ساخت که می‌توانستیم آن را منتشر کنیم و کسی متوجه نقص آن نشود (غیر از عنوان فوق‌العاده خسته‌کننده فیلم). از سوی دیگر، Midjourney در اینجا چیزهای زیادی را اشتباه انجام داد. با این حال در مقایسه چت جی پی تی و میدجورنی، ما به مسیری که میدجورنی در پیش گرفته بود، احترام می‌گذاریم.

۵. تولید متن

تصاویر ایجاد شده توسط ChatGPT و Midjourney از پوسترهای گروه موسیقی

چپ: ChatGPT / راست: Midjourney

پرامپت: تصویری از یک پوستر ایجاد کنید که بر روی پوستر نوشته شده است: «گروه موسیقی «تولیدکننده تصویر هوش مصنوعی» امشب ساعت ۸ اینجا اجرا دارد! کاورهای تمام آهنگ‌های محبوب شما را اجرا خواهند کرد» تصویر را به گونه‌ای سبک‌‌پردازی کنید که گویی این یک پوستر برای یک گروه موسیقی است که در یک مکان محبوب اجرا می‌کند.

نتیجه ChatGPT:

در قابلیت تولید تصویر در ChatGPT یک موضوع مشترک در بیشتر مواقع وجود دارد: جزئیات اغلب بر سبک برتری دارند. این پوستر تمام خواسته‌های ما را انجام داد و مهم‌تر از آن، تمام متن را کاملاً درست نوشت. ChatGPT، تنها چند ماه پیش با این کار مشکل داشت، بنابراین دیدن اینکه چقدر پیشرفت کرده است، هیجان‌انگیز است. در حالی که این پوستر یک پوستر خسته‌کننده است، به خواسته ما عمل کرده و چالشی دشوار را برای مدل‌های هوش مصنوعی به انجام رسانده است.

نتیجه Midjourney:

ما از اینکه Midjourney این پوستر را بیشتر شبیه به یک پوستر که در یک مکان برگزاری نصب شده و پس زمینه دارد ساخته است، قدردانی می‌کنیم. همچنین انرژی‌ را که با قرار دادن تصویر اعضای گروه در وسط پوستر به دنبال آن بوده است، دوست داریم. با این حال، به غیر از کلمات “The band”، حتی یک کلمه از متن آن قابل خواندن نیست. در مقایسه با توانایی ChatGPT در نمایش تمام متن به طور کامل، این پوستر کمی ناامیدکننده است.

برنده: ChatGPT ممکن است در اینجا خیلی جالب نبوده باشد، اما کار را کاملاً به پایان رساند. همان‌طور که Midjourney نشان داد، برخورد با متن در تصاویر همیشه برای مدل‌های هوش مصنوعی آسان نیست. بنابراین برنده مقایسه چت جی پی تی و میدجورنی، ChatGPT خواهد بود.

۶. دست‌ها

دو تصویر، یکی ساخته شده توسط ChatGPT و دیگری توسط Midjourney. هر دو از دو دست که یک پرتقال و یک لیوان آب را نگه داشته‌اند.

چپ: ChatGPT / راست: Midjourney

پرامپت: تصویری از دستان یک فرد ایجاد کنید در حالی که در دست چپ یک پرتقال و در دست دیگر یک لیوان آب را نگه داشته است.

نتیجه ChatGPT:

هوش مصنوعی چقدر پیشرفت کرده است. زمانی که تولید تصویر با هوش مصنوعی برای اولین بار مطرح شد، یکی از ساده‌ترین راه‌ها برای تشخیص آن، دست‌ها بودند. آن‌ها انگشتان فوق‌العاده بلندی داشتند یا انگشتانی داشتند که از جای اشتباهی بیرون زده بودند. در حال حاضر، در حالی که دست‌ها در اینجا کاملاً انسانی به نظر نمی‌رسند، دقت آن واقعاً چشمگیر است. هر دو دست تعداد انگشتان درستی دارند (یک شروع خوب)، آب در لیوان به درستی تصویر دست پشت آن را تغییر می‌دهد و می‌توانید رگ‌ها و ناخن‌ها را ببینید.

نتیجه Midjourney:

Midjourney در اینجا کار فوق‌العاده‌ای انجام داد. چیزی که به نظر ما در این تصویر به ویژه چشمگیر است، جزئیات آن است. موهای روی بازوها، رگ‌ها، کبودی روی بند انگشتان و خطوط کشش روی دست‌ها. در حالی که تصویر ChatGPT فوراً به عنوان هوش مصنوعی قابل تشخیص است، این تصویر می‌تواند به عنوان دست‌های یک انسان شناخته شود. تنها مشکل قابل توجه، انگشتی است که پشت لیوان قرار دارد و به نظر نمی‌رسد کاملاً طبیعی باشد. همچنین روش بسیار عجیبی برای نگه داشتن پرتقال است، اما هر کس سلیقه خود را دارد.

برنده: Midjourney با غلبه بر یکی از شناخته‌شده‌ترین نقاط ضعف هوش مصنوعی، در این مورد پیروز شد. این نشان می‌دهد که چقدر پیشرفت کرده است. این به این معنا نیست که ChatGPT بد عمل کرد، فقط به اندازه کافی در مقایسه با میدجورنی خوب نبود.

۷. غذا

دو تصویر از غذا که توسط ChatGPT و Midjourney ساخته شده‌اند.

چپ: ChatGPT / راست: Midjourney

پرامپت: تصویری از یک کاسه پاستا دریایی بسازید که بتواند برای یک صفحه اینستاگرام مربوط به غذا استفاده شود.

نتیجه ChatGPT:

این نوع تصویر از همان عکس‌های غذایی‌ست که در یک کتاب آشپزی می‌بینیم و حتی یک لحظه هم به آن شک نمی‌کنیم. با وجود اینکه وجود خارجی ندارد، ممکن است دلتان بخواهد آن را بخورید. واقعاً نمی‌توانیم کار مدل هوش مصنوعی را در اینجا نقد کنیم؛ تمام خواسته‌های درخواستی ما را انجام داد، حتی اگر آن تکه سبزی تصادفی در پایین کاملاً نامناسب باشد.

نتیجه Midjourney:

درست مانند ChatGPT، Midjourney در اینجا کار فوق‌العاده‌ای انجام داد. این تصویر شبیه یک کاسه پاستا واقعی است که در یک رستوران خوب سرو می‌شود. حتی چند گوجه‌فرنگی و سیر تصادفی در اطراف پراکنده شده‌اند، که فرض می‌کنیم برای تزئین است.

برنده: ChatGPT به لطف کیفیت تصویری کمی بهتر، در اینجا پیروز می‌شود، اما مانند مورد دست‌ها، این رقابت در مقایسه چت جی پی تی و میدجورنی رقابت نزدیکی بود.

نتیجه‌گیری نهایی: ChatGPT پیروز می‌شود.

متأسفانه برای Midjourney، رقابت حتی نزدیک هم نبود. البته، مهم است که توجه داشته باشیم Midjourney به تازگی این نسخه را منتشر کرده و هنوز در مرحله آزمایشی قرار دارد. با این حال، آخرین نسخه از تولید تصویر GPT تنها یک یا دو هفته قدیمی‌تر است. در حالی که این مدل‌ها زمانی با هم برابر بودند، ChatGPT اغلب در جایی که Midjourney موفق نبود، برتری داشت. ما امیدواریم که Midjourney در فازهای آزمایشی نسخه ۷ شاهد پیشرفت باشد، چراکه می‌تواند به یک تولیدکننده تصویر هوش مصنوعی عالی تبدیل شود.

لپ تاپ 16 اینچی ایسوس مدل TUF Gaming F16 FX608JMR-F16I75060-i7 14650HX-RTX5060 8GB-32GB DDR5 5600MHz-1TB SSD-FHD 165Hz-W

332,000,000

تومان

لپ تاپ 15.6 اینچی ایسوس مدل Vivobook 15 X1504VA-BQ4675-i3 1315U-8GB DDR4 3200MHz-512GB SSD-IPS

75,000,000

تومان

خرید لپ تاپ از دیجی کالا

مشاهده همه

منبع: tomsguide