مقایسه چتجیپیتی و میدجورنی با ۷ پرامپت

با ظهور انواع هوشهای مصنوعی و بحث بر سر انتخاب بهترین هوش مصنوعی، حالا دو غول هوش مصنوعی ساخت عکس در برابر هم قرار گرفتهاند. برنامه هوش مصنوعی مید جورنی (Midjourney) و چتجیپیتی (ChatGPT) اخیراً نسخههای جدیدی از قابلیتهای تولید تصویر مبتنی بر هوش مصنوعی خود را منتشر کردهاند. از نظر تاریخی، این دو هوش مصنوعی از بهترینهای موجود در فضای تولید تصویر بودهاند. اما کدام هوش مصنوعی امکانات تصویرسازی بهتری ارائه میدهد؟ Midjourney V7 یا تصاویری که ChatGPT 4o میسازد؟ در ادامه برنده مقایسه چت جی پی تی و میدجورنی مشخص شده است.
در این مقاله ChatGPT و Midjourney با استفاده از هفت پرامپت مختلف در برابر هم قرار گرفتهاند؛ هدف از این رویارویی این است که ببینیم بهترین تولیدکننده تصویر هوش مصنوعی کدام است. این آزمایشها همه چیز را از توانایی مدل در درک مفهوم گرفته تا بازآفرینی اشکال پیچیده و تفکر خلاقانه برای ایجاد تصاویر مورد بررسی قرار میدهند.
قوانین مقایسه ChatGPT وMidjourney V7
۱. فوتورئالیسم (واقعگرایی عکاسانه)
۲. پرامپتهای پیچیده
۳. تطبیقدهی با تصاویر واقعی
۴. پوسترهای فیلم
۵. تولید متن
۶. دستها
۷. غذا
قوانین مقایسه ChatGPT و Midjourney V7
در حالی که هر دو مدل این هوشهای مصنوعی میتوانند تصویر تولید کنند، دشوار است که این رقابت را منصفانه برگزار کرد؛ به این دلیل که حجم تنظیماتی که Midjourney امکان تغییر آنها را برای کاربر فراهم میکند، بسیار زیاد است. با این حال، با در نظر گرفتن این نکته، مراحل اولیه رقابت را آغاز میکنیم. در این قیاس برای Midjourney، از نسخه ۷ استفاده کردیم. این آخرین نسخه آن است اما هنوز در مرحله آزمایشی قرار دارد. همچنین پرامپت این آزمایش را با روشن و خاموش بودن قابلیت شخصیسازی (تنظیماتی که سبکهای هنری مورد علاقه شما را به تصاویر اضافه میکند) امتحان کردیم. Midjourney در مقایسه با یک تصویری که ChatGPT ارائه میکند، چهار نسخه از هر تصویر را برای کاربر تولید میکند. در همه موارد آزمایش مقایسه چت جی پی تی و میدجورنی، ما بهترین تصویر را از میان چهار اثر پیشنهادی Midjourney انتخاب کردیم و نسخهی با کیفیت بالای آن را دانلود کردیم.
۱. فوتورئالیسم (واقعگرایی عکاسانه)

چپ: ChatGPT / راست: Midjourney
پرامپت: یک تصویر فوتورئالیستی از یک پرنده پافین که بر فراز صخرهای که آبها در پایین آن قرار گرفتهاند، ایجاد کنید، در حالی که پرنده پرواز میکند. در پسزمینه یک رشته کوه وجود دارد. روز آفتابی است و در پاییندست پرنده پافین، دو نفر با دوربین دوچشمی به او نگاه میکنند.
نتیجه ChatGPT:
این تصویر تقریباً به تمام خواستههای مطرح شده در پرامپت ما پاسخ میدهد. اگرچه ممکن است تصویر کمی بیش از حد اشباع شده باشد (سچوریشن بالا)، اما هنوز فوتورئالیستی است. یک پرنده پافین بر فراز صخرهای پرواز میکند، آب در پایین وجود دارد و یک رشته کوه در پسزمینه دیده میشود. علاوه بر این نکات، تصویر تولید شده، دو نفری را که با دوربین دوچشمی به او نگاه میکنند هم شامل میشود. البته، آنها مستقیماً به پافین نگاه نمیکنند، بدون در نظر گرفن این نکته تصویر کاملاً دقیق است.
نتیجه Midjourney:
در این تصویر نکات زیادی وجود دارد. نمیتوانیم منکر شویم که همه چیزهایی که در پرامپت وچود داشت، لحاظ شده است. کوهها در پسزمینه، یک پرنده پافین، دو نفر با دوربین دوچشمی و حتی آب و کوهها در پسزمینه. با این حال، بیایید به نکته اصلی تصویر بپردازیم. پرنده پافین در این تصویر غولپیکر است و در صورت لزوم میتواند با گودزیلا مبارزه کند. تصویر همچنین واقعاً فوتورئالیستی نیست و بیشتر شبیه به یک نقاشی رنگ روغن بزرگ به نظر میرسد. حتی با صرف نظر از مشکلات اندازه پرنده، هنوز فکر میکنیم که ChatGPT نشانهها را با دقت بیشتری درک کرده است. هر دو مدل آب را در پایین صخره ایجاد کردند، اما چت جی پی تی مفهوم کلی پرامپت را دقیقتر درک کرد.
برنده: ChatGPT در این مورد تقریباً از هر نظر پیروز میشود. میدجرنی در مورد پرنده پافین در آسمان بیش از حد مفهوم را اشتباه فهمیده است و از سوی دیگر، ChatGPT کاملاً به خواسته ما عمل کرده است، پس برنده مقایسه چت جی پی تی و میدجورنی بیشک ChatGPT است.
۲. پرامپتهای پیچیده

چپ: ChatGPT / راست: Midjourney
پرامپت: یک بازار بزرگ با یک غرفه فروش میوه، یک غرفه فروش لباس و یک غرفه فروش سرامیک را در نظر بگیرید. در پسزمینه یک رودخانه و در دوردست یک جنگل وجود دارد. مردی در مقابل یکی از غرفهها به زنی پول میدهد و دو کودک در میان بازار میدوند. در آسمان یک بالون هوای گرم هم دیده میشود.
نتیجه ChatGPT:
در این پرامپت اطلاعات زیادی وجود داشت و نادیده گرفتن برخی از آنها برای مدل هوش مصنوعی آسان و محتمل بود. با این حال، تمام جزئیات کلیدی در پاسخ چت جی پی تی وجود دارد. بالون هوای گرم، دو کودکی که در میان بازار میدوند و مردی که به زنی پول میدهد. همچنین مشخص است که هوا گرم است و میتوانید بازاری را ببینید که میوه، سرامیک و لباس میفروشد. با وجود تمام جزئیات مورد نیاز، ChatGPT یک تصویر با کیفیت و بسیار دقیق تولید کرد.
نتیجه Midjourney:
در حالی که Midjourney تصویر مدنظر پرامپت را تولید کرد، جزئیات آن بسیار کوچک بودند و دقت کافی را نداشتند. برای مثال هنگام زوم کردن، چهرهها کامل نیستند، دستهای دو نفر در هم ادغام شدهاند و بیشتر پسزمینه تار است.
برنده: برد این مرحله از مقایسه چت جی پی تی و میدجورنی را ChatGPT از آن خود میکند. در حالی که هر دو تصویر در نگاه اول درست به نظر میرسند و بیشتر ویژگیهای درخواستی را شامل میشوند، Midjourney جزئیات دقیق زیادی را از دست داده است.
۳. تطبیقدهی با تصاویر واقعی

چپ: ChatGPT / راست: Midjourney
پرامپت: این تصویر را به یک پرتره رنسانسی تبدیل کنید.
نتیجه ChatGPT:
با این پرامپت، ChatGPT اساساً تصویر داده شده را به تصویری به سبک مونالیزا تبدیل کرد. بازهم واقعاً نمیتوان از کار این هوش مصنوعی ایرادی گرفت. دقیقاً عکسی را که به او ارائه دادیم، به سبک دوران رنسانس درآورد. همچنین به خوبی ویژگیهایی مانند هدفون، پسزمینه و لباسهایی را که پوشیده بود، حفظ کرده و در عین حال به موضوع اصلی پایبند بوده است.
نتیجه Midjourney:
این بهترین تلاش از چهار تلاشی بود که Midjourney به ما ارائه داد. میبینیم که مدل در تلاش برای چه چیزی بوده است. اما نتوانست به آن برسد. در حین انجام آزمایش حتی سعی کردیم پرامپت را کمی تغییر دهیم تا مشخص شود که آن را به سبک نقاشی میخواهیم، اما این کار اوضاع را بدتر کرد. ما خوشبینانه فرض میکنیم حاشیه قهوهای هم قرار است با موضوع مطابقت داشته باشد، تشخیص آن واقعا دشوار است.
برنده: ChatGPT ثابت کرده بود که این مدل جدیدش در ایجاد تغییرات خلاقانه بر روی تصاویر شخصی بسیار موفق است و این آزمایش هم اثباتی دیگر بر این مدعاست. دقیقاً همان چیزی را که خواستیم انجام داد. به نظر میرسد Midjourney در نیمه راه تسلیم شده است. پس برنده مقایسه چتجیپیتی و میدجورنی مشخص است.
۴. پوسترهای فیلم

چپ: ChatGPT / راست: Midjourney
پرامپت: یک پوستر هیجانانگیز برای این فیلم ایجاد کنید: یک فیلم سایبرپانک که در سال ۲۲۵۰ اتفاق میافتد. داستان در یک شهر بزرگ و پرجنبوجوش روایت میشود. فیلم درباره کارآگاهی است که برای جلوگیری از وقوع جنگی در آینده به گذشته فرستاده میشود.
نتیجه ChatGPT:
این هیجانانگیزترین پوستر ممکن نیست، اما ChatGPT قطعاً در این مورد به خواسته ما عمل کرد. کارآگاه ما در مرکز صحنه قرار دارد، با شهری شلوغ (و نسبتاً آیندهنگرانه) در پسزمینه. همچنین پرامپت را به عنوان متنی کاملاً تحتاللفظی برداشت کرد و به دادههای درخواستی یک شعار هم اضافه کرد. به طور کلی، چشمگیر است. کارآگاه با سایه نور نئون در پشتش با جزئیات نمایش داده شده، یک ماشین پرنده در آسمان وجود دارد، اگر چه کمی خامدستانه رسم شده. همچنین آسمانخراشهای آیندهنگر زیادی در پس زمینه دیده میشود.
نتیجه Midjourney:
در واقع چیزی که میدجورنی در جزئیات کم دارد را سعی میکند با سبک خود جبران میکند. مسلماً آسمانخراشها در اینجا بهتر به نظر میرسند و در این تصویر چیزهای بیشتری برای دیدن وجود دارد. متأسفانه، Midjourney با جزئیات تار خود از جت جی پی تی عقب میماند. تصاویر روی زمین در هم آمیخته شدهاند، ماشین و موتور سیکلت دچار اشکال شدهاند و جزئیات عجیب و غریب زیادی در پسزمینه وجود دارد. در حالی که این پوستر جالبتر است، اما مشکلات زیادی در آن وجود دارد.
برنده: ChatGPT تمام خواستههای ما را انجام داد و پوستری ساخت که میتوانستیم آن را منتشر کنیم و کسی متوجه نقص آن نشود (غیر از عنوان فوقالعاده خستهکننده فیلم). از سوی دیگر، Midjourney در اینجا چیزهای زیادی را اشتباه انجام داد. با این حال در مقایسه چت جی پی تی و میدجورنی، ما به مسیری که میدجورنی در پیش گرفته بود، احترام میگذاریم.
۵. تولید متن

چپ: ChatGPT / راست: Midjourney
پرامپت: تصویری از یک پوستر ایجاد کنید که بر روی پوستر نوشته شده است: «گروه موسیقی «تولیدکننده تصویر هوش مصنوعی» امشب ساعت ۸ اینجا اجرا دارد! کاورهای تمام آهنگهای محبوب شما را اجرا خواهند کرد» تصویر را به گونهای سبکپردازی کنید که گویی این یک پوستر برای یک گروه موسیقی است که در یک مکان محبوب اجرا میکند.
نتیجه ChatGPT:
در قابلیت تولید تصویر در ChatGPT یک موضوع مشترک در بیشتر مواقع وجود دارد: جزئیات اغلب بر سبک برتری دارند. این پوستر تمام خواستههای ما را انجام داد و مهمتر از آن، تمام متن را کاملاً درست نوشت. ChatGPT، تنها چند ماه پیش با این کار مشکل داشت، بنابراین دیدن اینکه چقدر پیشرفت کرده است، هیجانانگیز است. در حالی که این پوستر یک پوستر خستهکننده است، به خواسته ما عمل کرده و چالشی دشوار را برای مدلهای هوش مصنوعی به انجام رسانده است.
نتیجه Midjourney:
ما از اینکه Midjourney این پوستر را بیشتر شبیه به یک پوستر که در یک مکان برگزاری نصب شده و پس زمینه دارد ساخته است، قدردانی میکنیم. همچنین انرژی را که با قرار دادن تصویر اعضای گروه در وسط پوستر به دنبال آن بوده است، دوست داریم. با این حال، به غیر از کلمات “The band”، حتی یک کلمه از متن آن قابل خواندن نیست. در مقایسه با توانایی ChatGPT در نمایش تمام متن به طور کامل، این پوستر کمی ناامیدکننده است.
برنده: ChatGPT ممکن است در اینجا خیلی جالب نبوده باشد، اما کار را کاملاً به پایان رساند. همانطور که Midjourney نشان داد، برخورد با متن در تصاویر همیشه برای مدلهای هوش مصنوعی آسان نیست. بنابراین برنده مقایسه چت جی پی تی و میدجورنی، ChatGPT خواهد بود.
۶. دستها

چپ: ChatGPT / راست: Midjourney
پرامپت: تصویری از دستان یک فرد ایجاد کنید در حالی که در دست چپ یک پرتقال و در دست دیگر یک لیوان آب را نگه داشته است.
نتیجه ChatGPT:
هوش مصنوعی چقدر پیشرفت کرده است. زمانی که تولید تصویر با هوش مصنوعی برای اولین بار مطرح شد، یکی از سادهترین راهها برای تشخیص آن، دستها بودند. آنها انگشتان فوقالعاده بلندی داشتند یا انگشتانی داشتند که از جای اشتباهی بیرون زده بودند. در حال حاضر، در حالی که دستها در اینجا کاملاً انسانی به نظر نمیرسند، دقت آن واقعاً چشمگیر است. هر دو دست تعداد انگشتان درستی دارند (یک شروع خوب)، آب در لیوان به درستی تصویر دست پشت آن را تغییر میدهد و میتوانید رگها و ناخنها را ببینید.
نتیجه Midjourney:
Midjourney در اینجا کار فوقالعادهای انجام داد. چیزی که به نظر ما در این تصویر به ویژه چشمگیر است، جزئیات آن است. موهای روی بازوها، رگها، کبودی روی بند انگشتان و خطوط کشش روی دستها. در حالی که تصویر ChatGPT فوراً به عنوان هوش مصنوعی قابل تشخیص است، این تصویر میتواند به عنوان دستهای یک انسان شناخته شود. تنها مشکل قابل توجه، انگشتی است که پشت لیوان قرار دارد و به نظر نمیرسد کاملاً طبیعی باشد. همچنین روش بسیار عجیبی برای نگه داشتن پرتقال است، اما هر کس سلیقه خود را دارد.
برنده: Midjourney با غلبه بر یکی از شناختهشدهترین نقاط ضعف هوش مصنوعی، در این مورد پیروز شد. این نشان میدهد که چقدر پیشرفت کرده است. این به این معنا نیست که ChatGPT بد عمل کرد، فقط به اندازه کافی در مقایسه با میدجورنی خوب نبود.
۷. غذا

چپ: ChatGPT / راست: Midjourney
پرامپت: تصویری از یک کاسه پاستا دریایی بسازید که بتواند برای یک صفحه اینستاگرام مربوط به غذا استفاده شود.
نتیجه ChatGPT:
این نوع تصویر از همان عکسهای غذاییست که در یک کتاب آشپزی میبینیم و حتی یک لحظه هم به آن شک نمیکنیم. با وجود اینکه وجود خارجی ندارد، ممکن است دلتان بخواهد آن را بخورید. واقعاً نمیتوانیم کار مدل هوش مصنوعی را در اینجا نقد کنیم؛ تمام خواستههای درخواستی ما را انجام داد، حتی اگر آن تکه سبزی تصادفی در پایین کاملاً نامناسب باشد.
نتیجه Midjourney:
درست مانند ChatGPT، Midjourney در اینجا کار فوقالعادهای انجام داد. این تصویر شبیه یک کاسه پاستا واقعی است که در یک رستوران خوب سرو میشود. حتی چند گوجهفرنگی و سیر تصادفی در اطراف پراکنده شدهاند، که فرض میکنیم برای تزئین است.
برنده: ChatGPT به لطف کیفیت تصویری کمی بهتر، در اینجا پیروز میشود، اما مانند مورد دستها، این رقابت در مقایسه چت جی پی تی و میدجورنی رقابت نزدیکی بود.
نتیجهگیری نهایی: ChatGPT پیروز میشود.
متأسفانه برای Midjourney، رقابت حتی نزدیک هم نبود. البته، مهم است که توجه داشته باشیم Midjourney به تازگی این نسخه را منتشر کرده و هنوز در مرحله آزمایشی قرار دارد. با این حال، آخرین نسخه از تولید تصویر GPT تنها یک یا دو هفته قدیمیتر است. در حالی که این مدلها زمانی با هم برابر بودند، ChatGPT اغلب در جایی که Midjourney موفق نبود، برتری داشت. ما امیدواریم که Midjourney در فازهای آزمایشی نسخه ۷ شاهد پیشرفت باشد، چراکه میتواند به یک تولیدکننده تصویر هوش مصنوعی عالی تبدیل شود.
منبع: tomsguide