OpenAI از مدل‌های هوش مصنوعی استدلالی o3 و o4 مینی رونمایی کرد

یوسف اسفندیاری

۲۸ فروردین ۱۴۰۴ | ۰۷:۰۰ زمان مورد نیاز برای مطالعه: ۳ دقیقه

شب گذشته، شرکت OpenAI از دو مدل جدید استدلالی هوش مصنوعی خود با نام‌های o3 و o4 مینی رونمایی کرد. این نوع مدل‌ها قبل از پاسخ دادن به جواب، زوایای مختلفی را بررسی می‌کنند تا بتوانند بهترین پاسخ را ارائه دهند.

مدل o3 به‌عنوان پیشرفته‌ترین دستاورد OpenAI در زمینه‌ی استدلال معرفی شده و در ارزیابی‌هایی که توانایی‌هایی نظیر ریاضی، کدنویسی، علوم، استدلال و درک بصری را می‌سنجند، عملکردی برتر نسبت به مدل‌های پیشین این شرکت نشان داده است. در مقابل، مدل o4 mini با ایجاد تعادل میان سرعت، هزینه و کارایی، گزینه‌ای مناسب برای توسعه‌دهندگانی به شمار می‌رود که به دنبال انتخاب مدلی بهینه برای برنامه‌های خود هستند.

ویژگی‌های مدل‌های o3 و o4 مینی

این دو مدل برخلاف نسخه‌های پیشین، توانایی بهره‌گیری از ابزارهای موجود در چت جی پی تی مانند جست‌وجوی وب، اجرای کدهای Python، تحلیل تصاویر و تولید تصویر را دارند. از امروز، این مدل‌ها همراه با نسخه‌ای ویژه از o4 mini به نام o4-mini-high، که زمان بیشتری را به تدوین پاسخ‌های دقیق‌تر اختصاص می‌دهد، برای کاربران طرح‌های Pro، Plus و Team در دسترس قرار گرفته‌اند.

این مدل‌ها بخشی از تلاش OpenAI برای پیشتازی در رقابت فشرده‌ی جهانی هوش مصنوعی در برابر شرکت‌هایی نظیر گوگل، متا، xAI، Anthropic و DeepSeek به شمار می‌روند. اگرچه OpenAI با عرضه‌ی مدل o1 پیشگام معرفی مدل‌های استدلالی بود، رقبا به‌سرعت مدل‌هایی با عملکرد مشابه یا حتی برتر ارائه کردند. در حال حاضر، مدل‌های استدلالی به دلیل تلاش آزمایشگاه‌های هوش مصنوعی برای بهبود عملکرد سیستم‌ها، در این حوزه پیشرو هستند. سم آلتمن، مدیرعامل OpenAI، در ماه فوریه اعلام کرد که شرکت منابع بیشتری را به توسعه‌ی فناوری پیشرفته‌ای اختصاص خواهد داد که پایه‌ی مدل o3 را تشکیل می‌دهد. با این حال، فشار رقابت ظاهراً این شرکت را به تغییر برنامه‌های خود واداشته است.

OpenAI اعلام کرده که مدل o3 در آزمون SWE-bench، که توانایی کدنویسی را بدون استفاده از چارچوب‌های سفارشی ارزیابی می‌کند، با کسب امتیاز 69.1% عملکردی در سطح جهانی ارائه داده است. مدل o4 mini نیز با امتیاز 68.1% عملکردی نزدیک به o3 نشان داده است. در مقایسه، مدل پیشین o3 mini امتیاز 49.3% و مدل Claude 3.5 Sonnet امتیاز 62.3% را کسب کرده‌اند.

قابلیت‌های بصری و پردازشی

OpenAI مدعی است که o3 و o4 مینی اولین مدل‌هایی هستند که توانایی «تفکر با تصاویر» را دارند. کاربران می‌توانند تصاویری مانند طرح‌های روی تخته‌ی وایت‌برد یا دیاگرام‌های موجود در فایل‌های PDF را در ChatGPT بارگذاری کنند. این مدل‌ها تصاویر را در فرآیند «زنجیره‌ی تفکر» خود تحلیل کرده و پاسخ‌های مناسب ارائه می‌دهند. این مدل‌ها حتی قادر به درک تصاویر تار یا کم‌کیفیت بوده و می‌توانند وظایفی مانند بزرگ‌نمایی یا چرخش تصاویر را انجام دهند.

علاوه بر این، o3 و o4 mini می‌توانند کدهای Python را مستقیماً در مرورگر از طریق قابلیت Canvas در ChatGPT اجرا کنند و در صورت نیاز به اطلاعات جاری، در وب جست‌وجو کنند.

دسترسی برای توسعه‌دهندگان

این سه مدل (o3، o4 mini و o4-mini-high) از طریق APIهای Chat Completions و Responses برای توسعه‌دهندگان در دسترس هستند. این امکان به مهندسان اجازه می‌دهد تا برنامه‌هایی با نرخ‌های مصرفی مبتنی بر این مدل‌ها طراحی کنند.

هزینه‌ی استفاده از مدل o3 شامل 10 دلار به ازای هر میلیون توکن ورودی (معادل حدود 750000 کلمه، طولانی‌تر از مجموعه‌ی کتاب‌های «ارباب حلقه‌ها») و 40 دلار به ازای هر میلیون توکن خروجی است. برای مدل o4 mini، هزینه‌ای مشابه مدل o3 mini در نظر گرفته شده: 1.10 دلار برای هر میلیون توکن ورودی و 4.40 دلار برای هر میلیون توکن خروجی.

OpenAI اعلام کرده که در هفته‌های آتی، نسخه‌ای با نام o3 Pro عرضه خواهد کرد که از منابع محاسباتی بیشتری برای ارائه‌ی پاسخ‌های دقیق‌تر بهره می‌گیرد. این نسخه به‌صورت انحصاری برای کاربران طرح Pro در ChatGPT در دسترس خواهد بود.

سم آلتمن اشاره کرده که o3 و o4 mini احتمالاً آخرین مدل‌های استدلالی مستقل OpenAI پیش از معرفی GPT-5 خواهند بود. این شرکت قصد دارد در GPT-5 مدل‌های سنتی مانند GPT-4.1 را با مدل‌های استدلالی ادغام کند.