مدل هوش مصنوعی O3 شرکت OpenAI در واقعیت ضعیف‌تر از انتظار است

یوسف اسفندیاری

۱ اردیبهشت ۱۴۰۴ | ۰۸:۰۰ زمان مورد نیاز برای مطالعه: ۳ دقیقه

وجود تفاوت میان نتایج بنچمارک ارائه شده توسط OpenAI (خالق چت جی پی تی) و نهادهای مستقل برای مدل هوش مصنوعی o3، سوالاتی را درباره‌ی شفافیت شرکت و روش‌های تست مدل آن مطرح کرده است. زمانی که OpenAI در دسامبر از o3 پرده‌برداری کرد، این شرکت مدعی شد که مدل قادر است به بیش از یک چهارم پرسش‌های FrontierMath پاسخ دهد؛ FrontierMath مجموعه‌ی چالش‌برانگیزی از مسائل ریاضی به حساب می‌آید. این امتیاز عملکرد رقبا را کاملا تحت‌الشعاع قرار داد؛ مدل بعدی با بهترین عملکرد، تنها موفق شد حدود 2 درصد از مسائل FrontierMath را به درستی حل کند.

اما این‌طور که پیداست، آن عدد احتمالا نشان‌دهنده‌ی یک کران بالا بود که نسخه‌ی خاصی از o3 با توان محاسباتی بیشتر در مقایسه با مدل عرضه شده‌ی عمومی هفته‌ی گذشته توسط OpenAI، به آن دست یافته بود. موسسه پژوهشی Epoch AI، نهاد پشتیبان FrontierMath، روز جمعه نتایج آزمون‌های بنچمارک مستقل خود برای o3 را منتشر کرد. یافته‌های Epoch نشان داد که o3 امتیازی حدود 10 درصد کسب کرده که به مراتب کمتر از بالاترین امتیاز اعلام شده توسط OpenAI است.

این به خودی خود اثبات نمی‌کند که OpenAI اطلاعات نادرستی داده است. نتایج بنچمارکی که شرکت در دسامبر منتشر کرده بود، یک کران پایین را نشان می‌دهد که با امتیاز ثبت شده توسط Epoch همخوانی دارد. Epoch همچنین خاطرنشان کرد که چیدمان آزمایشی آن‌ها احتمالا با چیدمان OpenAI فرق دارد و آن‌ها از ویرایش جدیدتری از FrontierMath برای سنجش‌های خود بهره برده‌اند.

Epoch در بیانیه‌ی خود نوشت: «علت تفاوت بین نتایج ما و نتایج OpenAI می‌تواند ارزیابی OpenAI با یک زیرساخت داخلی قوی‌تر، استفاده از توان محاسباتی بیشتر در زمان آزمون، یا اجرای آن نتایج روی زیرمجموعه‌ی دیگری از FrontierMath باشد (180 مسئله در frontiermath-2024-11-26 در برابر 290 مسئله در frontiermath-2025-02-28-private)». وندا ژو از OpenAI، که عضو تیم فنی است، هفته‌ی گذشته در یک پخش زنده اعلام کرد که مدل o3 در مرحله‌ی تولید «برای موارد کاربرد در دنیای واقعی» و افزایش سرعت بهینه‌سازی شده است، برخلاف نسخه‌ی o3 که در دسامبر به نمایش گذاشته شد. او اضافه کرد که به همین دلیل، ممکن است «اختلافاتی» در نتایج بنچمارک مشاهده شود.

البته، این موضوع که عملکرد نسخه‌ی عمومی o3 کمتر از وعده‌های OpenAI در تست‌ها است، تا حدودی بی‌اهمیت به نظر می‌رسد، زیرا مدل‌های o3-mini-high و o4-mini خود شرکت در FrontierMath از o3 بهتر عمل می‌کنند و OpenAI برنامه دارد تا در هفته‌های پیش رو، نسخه‌ی قوی‌تری از o3 با نام o3-pro را عرضه کند. با این وجود، این ماجرا یک بار دیگر یادآوری می‌کند که نباید نتایج بنچمارک‌های هوش مصنوعی را، به خصوص وقتی از سوی شرکتی با اهداف تجاری منتشر می‌شود، بدون بررسی پذیرفت.

«بحث‌ها و جدل‌های» مربوط به بنچمارک در صنعت هوش مصنوعی به امری متداول تبدیل می‌شود، چرا که شرکت‌ها در رقابت برای جلب نظر رسانه‌ها و کاربران با معرفی مدل‌های جدید هستند. در ژانویه، Epoch به دلیل عدم افشای به موقع دریافت کمک مالی از OpenAI تا پس از معرفی o3 توسط این شرکت، هدف انتقاد قرار گرفت. بسیاری از محققانی که در توسعه‌ی FrontierMath نقش داشتند، تا پیش از علنی شدن موضوع، از مشارکت OpenAI بی‌خبر بودند.

به تازگی نیز، شرکت xAI ایلان ماسک به انتشار نمودارهای بنچمارک غیردقیق برای مدل هوش مصنوعی اخیر خود، Grok 3، متهم شد. درست در همین ماه، شرکت متا اذعان کرد که امتیازهای بنچمارکی را برای نسخه‌ای از یک مدل تبلیغ کرده که با نسخه‌ی ارائه شده به توسعه‌دهندگان تفاوت داشته است.