این روزها همه جا صحبت از هوش مصنوعی و تواناییهای شگفتانگیز آن است. مدلهای زبان بزرگ (LLM) مانند سری GPT، کلود (Claude) و جمینای (Gemini) ما را با تولید متن، کدنویسی و پاسخ به سوالات پیچیده شگفتزده کردهاند. اما اخیراً نسل جدیدی از این مدلها با نام «مدلهای استدلالگر بزرگ» (Large Reasoning Models یا LRM) پا به میدان گذاشتهاند که ادعای بزرگتری دارند: آنها قبل از ارائه پاسخ نهایی، فرآیند «تفکر» خود را به ما نشان میدهند.
این مدلها، مانند Claude 3.7 Sonnet Thinking یا DeepSeek-R1، با نمایش مراحل فکر کردن خود، سعی در حل مسائل پیچیدهتر دارند و در نگاه اول، گامی بزرگ به سوی هوش مصنوعی عمومی (AGI) به نظر میرسند. اما آیا این «تفکر» واقعی است یا تنها یک «توهم» هوشمندانه؟ یک پژوهش جدید و بسیار مهم از محققان اپل، پرده از محدودیتهای تکاندهنده این مدلها برمیدارد و نشان میدهد که داستان پیچیدهتر از آن چیزی است که فکر میکنیم.
چرا آزمونهای ریاضی برای سنجش هوش مصنوعی کافی نیستند؟
تا به امروز، معیار اصلی برای سنجش توانایی استدلال مدلهای هوش مصنوعی، بنچمارکهای معروف ریاضی و کدنویسی مانند MATH-500 یا AIME بوده است. مشکل اصلی این بنچمارکها، چیزی است که محققان به آن «آلودگی دادهها» (Data Contamination) میگویند. به زبان ساده، این احتمال وجود دارد که مدلها در طول فرآیند آموزش خود، راهحل این مسائل را از قبل دیده و به نوعی «حفظ» کرده باشند، نه اینکه واقعاً آنها را «حل» کنند.
این تحقیق نشان میدهد که عملکرد مدلها در این آزمونها میتواند گمراهکننده باشد. برای مثال، در حالی که مدلهای «متفکر» در بنچمارک AIME24 و AIME25 بهتر از نسخههای استاندارد خود عمل میکنند، این برتری ممکن است به دلیل توانایی استدلال بالاتر نباشد، بلکه به دلیل کمتر بودن آلودگی دادهها در بنچمارکهای جدیدتر باشد.
یک زمین بازی جدید برای هوش مصنوعی: معماهای کنترلشده
به جای مسائل ریاضی که ممکن است پاسخشان در اینترنت موجود باشد، این پژوهش از چهار معمای کلاسیک و کنترلشده استفاده میکند:
- برج هانوی (Tower of Hanoi): یک معمای کلاسیک برای سنجش توانایی برنامهریزی و تفکر بازگشتی.
- پرش چکرز (Checkers Jumping): یک چالش برای درک قوانین حرکتی و برنامهریزی ترتیبی.
- عبور از رودخانه (River Crossing): معمایی برای ارزیابی مدیریت قیدها و هماهنگی چند عاملی.
- دنیای بلوکها (Blocks World): یک مسئله استاندارد برای سنجش قابلیتهای برنامهریزی و جابجایی.
مزیت بزرگ این معماها این است که میتوان با تغییر تعداد دیسکها، مهرهها یا بلوکها، پیچیدگی مسئله را به طور دقیق کنترل کرد بدون اینکه منطق اصلی آن تغییر کند. این محیط کنترلشده به محققان اجازه میدهد تا نه تنها پاسخ نهایی، بلکه کیفیت و ساختار «فرآیند تفکر» مدلها را نیز به طور کامل تحلیل کنند.
سه فاز عملکرد: چه زمانی تفکر اضافه به ضرر مدل تمام میشود؟
یکی از جذابترین یافتههای این تحقیق، کشف سه فاز عملکرد متفاوت در مدلهای هوش مصنوعی بر اساس پیچیدگی مسئله است.
- فاز ۱: مسائل ساده (پیچیدگی پایین)در این مرحله، اتفاق عجیبی رخ میدهد: مدلهای استاندارد (بدون فکر) سریعتر و حتی دقیقتر از مدلهای متفکر (LRM) عمل میکنند! به نظر میرسد که فرآیند تفکر اضافی در این مسائل ساده، منجر به پدیدهای به نام «تفکر بیش از حد» (Overthinking) میشود. مدل راهحل صحیح را زود پیدا میکند، اما به شکل ناکارآمدی به بررسی گزینههای اشتباه ادامه میدهد و منابع محاسباتی را هدر میدهد.
- فاز ۲: مسائل متوسط (پیچیدگی میانی)در این مرحله است که برتری مدلهای استدلالگر (LRM) آشکار میشود. فرآیند تفکر گامبهگام به آنها اجازه میدهد تا مسائل پیچیدهتر را با موفقیت حل کنند، در حالی که مدلهای استاندارد شروع به شکست میکنند.
- فاز ۳: مسائل دشوار (پیچیدگی بالا)اینجا نقطه فروپاشی است. در مسائل بسیار پیچیده، هر دو نوع مدل (چه متفکر و چه استاندارد) به طور کامل شکست میخورند و دقتشان به صفر میرسد. این نشان میدهد که با وجود تمام پیشرفتها، این مدلها هنوز قابلیت حل مسئله تعمیمپذیر را ندارند و در یک نقطه مشخص، تواناییهایشان به طور کامل از هم میپاشد.
تناقضی شگفتانگیز: وقتی مسئله سختتر میشود، هوش مصنوعی کمتر فکر میکند!
شاید نگرانکنندهترین کشف این پژوهش، یک رفتار کاملاً غیرمنتظره در مدلهای استدلالگر باشد. منطق حکم میکند که با افزایش پیچیدگی مسئله، مدل باید «تلاش» بیشتری برای فکر کردن بکند. اما نمودارها چیز دیگری را نشان میدهند:
مدلهای LRM میزان تلاش خود (که با تعداد توکنهای مصرفی برای تفکر سنجیده میشود) را تا یک نقطه مشخص با افزایش پیچیدگی، بالا میبرند. اما پس از عبور از یک «آستانه بحرانی»، با وجود سختتر شدن مسئله، شروع به کاهش تلاش و کمتر فکر کردن میکنند!
این پدیده که در مدلهای قدرتمندی مانند سری o3-mini و Claude 3.7 Sonnet دیده میشود، نشاندهنده یک محدودیت مقیاسپذیری بنیادین است. گویی مدلها در مواجهه با یک چالش بسیار بزرگ، به جای تلاش بیشتر، به سادگی «ناامید» شده و تسلیم میشوند، حتی اگر بودجه محاسباتی کافی (محدودیت توکن) در اختیار داشته باشند.
اجرای الگوریتم آماده: پاشنه آشیل مدلهای متفکر
یک آزمایش دیگر در این تحقیق، ضعف عمیقتری را آشکار میکند. محققان در معمای برج هانوی، الگوریتم کامل و گامبهگام حل مسئله را در پرامپت به مدل ارائه دادند. در این حالت، مدل دیگر نیازی به «کشف» راهحل ندارد و فقط باید مراحل یک الگوریتم مشخص را «اجرا» کند.
کلام آخر
این پژوهش یک زنگ بیدارباش برای جامعه هوش مصنوعی است. مدلهای استدلالگر بزرگ (LRM) با تمام تواناییهایشان، هنوز از استدلال واقعی و تعمیمپذیر فاصله زیادی دارند. یافتههای کلیدی این تحقیق به ما میگوید:
- برتری نسبی است: مدلهای متفکر فقط در یک بازه مشخص از پیچیدگی برتری دارند و در مسائل خیلی ساده یا خیلی سخت، کارایی خود را از دست میدهند.
- محدودیتهای بنیادین وجود دارد: پدیده «کمتر فکر کردن» در مسائل سخت، نشاندهنده یک دیوار مقیاسپذیری است که رویکردهای فعلی با آن مواجه شدهاند.
- اجرا مهمتر از کشف است: ناتوانی در اجرای یک الگوریتم آماده، سوالات جدی در مورد قابلیت اتکای این مدلها برای وظایف دقیق و حیاتی ایجاد میکند.
این به معنای بیارزش بودن این مدلها نیست، بلکه یادآوری مهمی است که ما هنوز در مراحل اولیه درک و ساخت هوش مصنوعی حقیقی هستیم. «تفکر» این مدلها، حداقل در حال حاضر، بیشتر شبیه به یک الگوشناسی بسیار پیشرفته است تا یک فرآیند استدلال عمیق و انسانی. راه زیادی تا رسیدن به ماشینی که واقعاً «میاندیشد» باقی مانده است.


















