مدل هوش مصنوعی O3 شرکت OpenAI در واقعیت ضعیفتر از انتظار است

وجود تفاوت میان نتایج بنچمارک ارائه شده توسط OpenAI (خالق چت جی پی تی) و نهادهای مستقل برای مدل هوش مصنوعی o3، سوالاتی را دربارهی شفافیت شرکت و روشهای تست مدل آن مطرح کرده است. زمانی که OpenAI در دسامبر از o3 پردهبرداری کرد، این شرکت مدعی شد که مدل قادر است به بیش از یک چهارم پرسشهای FrontierMath پاسخ دهد؛ FrontierMath مجموعهی چالشبرانگیزی از مسائل ریاضی به حساب میآید. این امتیاز عملکرد رقبا را کاملا تحتالشعاع قرار داد؛ مدل بعدی با بهترین عملکرد، تنها موفق شد حدود 2 درصد از مسائل FrontierMath را به درستی حل کند.
اما اینطور که پیداست، آن عدد احتمالا نشاندهندهی یک کران بالا بود که نسخهی خاصی از o3 با توان محاسباتی بیشتر در مقایسه با مدل عرضه شدهی عمومی هفتهی گذشته توسط OpenAI، به آن دست یافته بود. موسسه پژوهشی Epoch AI، نهاد پشتیبان FrontierMath، روز جمعه نتایج آزمونهای بنچمارک مستقل خود برای o3 را منتشر کرد. یافتههای Epoch نشان داد که o3 امتیازی حدود 10 درصد کسب کرده که به مراتب کمتر از بالاترین امتیاز اعلام شده توسط OpenAI است.
این به خودی خود اثبات نمیکند که OpenAI اطلاعات نادرستی داده است. نتایج بنچمارکی که شرکت در دسامبر منتشر کرده بود، یک کران پایین را نشان میدهد که با امتیاز ثبت شده توسط Epoch همخوانی دارد. Epoch همچنین خاطرنشان کرد که چیدمان آزمایشی آنها احتمالا با چیدمان OpenAI فرق دارد و آنها از ویرایش جدیدتری از FrontierMath برای سنجشهای خود بهره بردهاند.
Epoch در بیانیهی خود نوشت: «علت تفاوت بین نتایج ما و نتایج OpenAI میتواند ارزیابی OpenAI با یک زیرساخت داخلی قویتر، استفاده از توان محاسباتی بیشتر در زمان آزمون، یا اجرای آن نتایج روی زیرمجموعهی دیگری از FrontierMath باشد (180 مسئله در frontiermath-2024-11-26 در برابر 290 مسئله در frontiermath-2025-02-28-private)». وندا ژو از OpenAI، که عضو تیم فنی است، هفتهی گذشته در یک پخش زنده اعلام کرد که مدل o3 در مرحلهی تولید «برای موارد کاربرد در دنیای واقعی» و افزایش سرعت بهینهسازی شده است، برخلاف نسخهی o3 که در دسامبر به نمایش گذاشته شد. او اضافه کرد که به همین دلیل، ممکن است «اختلافاتی» در نتایج بنچمارک مشاهده شود.
البته، این موضوع که عملکرد نسخهی عمومی o3 کمتر از وعدههای OpenAI در تستها است، تا حدودی بیاهمیت به نظر میرسد، زیرا مدلهای o3-mini-high و o4-mini خود شرکت در FrontierMath از o3 بهتر عمل میکنند و OpenAI برنامه دارد تا در هفتههای پیش رو، نسخهی قویتری از o3 با نام o3-pro را عرضه کند. با این وجود، این ماجرا یک بار دیگر یادآوری میکند که نباید نتایج بنچمارکهای هوش مصنوعی را، به خصوص وقتی از سوی شرکتی با اهداف تجاری منتشر میشود، بدون بررسی پذیرفت.
«بحثها و جدلهای» مربوط به بنچمارک در صنعت هوش مصنوعی به امری متداول تبدیل میشود، چرا که شرکتها در رقابت برای جلب نظر رسانهها و کاربران با معرفی مدلهای جدید هستند. در ژانویه، Epoch به دلیل عدم افشای به موقع دریافت کمک مالی از OpenAI تا پس از معرفی o3 توسط این شرکت، هدف انتقاد قرار گرفت. بسیاری از محققانی که در توسعهی FrontierMath نقش داشتند، تا پیش از علنی شدن موضوع، از مشارکت OpenAI بیخبر بودند.
به تازگی نیز، شرکت xAI ایلان ماسک به انتشار نمودارهای بنچمارک غیردقیق برای مدل هوش مصنوعی اخیر خود، Grok 3، متهم شد. درست در همین ماه، شرکت متا اذعان کرد که امتیازهای بنچمارکی را برای نسخهای از یک مدل تبلیغ کرده که با نسخهی ارائه شده به توسعهدهندگان تفاوت داشته است.
منبع: TechCrunch