مفهوم اصلی این گزارش بررسی مشکلات جدید هوش مصنوعی مانند ChatGPT و سایر سامانهها است که علیرغم پیشرفت در حل مسائل ریاضی، دچار افزایش خطا در ارائه اطلاعات دقیق شدهاند. پدیدهای به نام "هالوسینیشن" در این سیستمها شایع شده و از اعتبار آنها میکاهد.
جزئیات مهم شامل آمار نگرانکننده نرخ خطا در مدلهای جدید OpenAI است، که در برخی آزمونها به 79 درصد رسید. همچنین، گزارش شده است که علت این خطاها میتواند شامل یادگیری تقویتی، فراموشی وظایف قبلی، و دشواری در ادامه مراحل تفکر باشد.
نتیجهگیری این است که با وجود وعدههای شرکتها برای کاهش خطا، کامل حذف کردن توهمات هوش مصنوعی غیرممکن به نظر میرسد. کاربران و کسبوکارها باید توازن بین سرعت و سهولت استفاده از این ابزارها و خطرات ناشی از خطاهای آنها را در نظر بگیرند.
به گزارش «نبض ارز» و به نقل از روزنامه نیویورک تایمز، سامانههای هوش مصنوعی جدیدی که شرکتهایی مثل OpenAI، گوگل و استارتاپ چینی DeepSeek عرضه کردهاند، هرچند در حل مسائل ریاضی پیشرفت چشمگیری داشتهاند، اما خطاهای شان در ارائه اطلاعات درست بیشتر شده است.
وقتی ربات پشتیبانی حرفش را از خودش درمیآورد
ماه گذشته چت بات «کِرسِر» (Cursor) که ابزاری نوظهور برای برنامهنویسان است، به چند کاربر اعلام کرد که دیگر حق ندارند حساب کاربریشان را روی بیش از یک رایانه فعال کنند. کاربران در انجمنهای آنلاین خشمگین شدند و بعضی حتی اشتراک خود را لغو کردند.
کمی بعد مدیرعامل Cursor، مایکل تروئل، زیر پُستی در ردیت نوشت:
«چنین سیاستی نداریم؛ میتوانید Cursor را روی چند دستگاه استفاده کنید. پاسخ ربات پشتیبانی نادرست بود.»
توهم یا «هالوسینیشن»؛ معضلی قدیمی با شدتی بیشتر از قبل
از زمان عرضه ChatGPT بیش از دو سال میگذرد و هوش مصنوعی در کارهای متنوعی بهکار گرفته میشود؛ از نوشتن مقاله و خلاصهسازی اسناد تا تولید کد. با این حال هیچ راهی وجود ندارد که مطمئن شویم خروجی این سامانهها کاملاً دقیق است. پژوهشگران به خطاهای بیاساس این سامانهها اصطلاحاً «هالوسینیشن» میگویند. در یک آزمون، نرخ هالوسینیشن بعضی مدلهای تازه تا ۷۹ درصد ثبت شد.
عمر عوضالله، مدیرعامل Vectara و مدیر ارشد پیشین گوگل، میگوید: «هر کاری بکنیم، این سامانهها گاهی اطلاعات نادرست تولید میکنند. این مسئله از بین نمیرود.»

اعداد نگرانکننده OpenAI
بر اساس آزمونهای درونسازمانی OpenAI روی مدلهای استدلالی خود:
- مدل o3 در آزمون PersonQA ۳۳ درصد پاسخهای اشتباه داد؛ دو برابر مدل پیشین o1.
- مدل o4‑mini در همان آزمون به ۴۸ درصد خطا رسید.
- در آزمون SimpleQA، نرخ هالوسینیشن برای o3 برابر ۵۱ درصد و برای o4‑mini ۷۹ درصد بود، در حالی که o1 ۴۴ درصد خطا داشت.
چرا مدلهای استدلالی بیشتر اشتباه میکنند؟
- یادگیری از طریق تقویت: از آنجا که تقریباً همه محتوای انگلیسی وب مصرف شده، شرکتها به «یادگیری تقویتی» رو آوردهاند؛ روشی که با آزمون و خطا الگو میسازد. این شیوه در ریاضی و برنامهنویسی مفید بوده ولی در زمینه اطلاعات عمومی نه.
- فراموشی وظایف قبلی: به گفته لورا پرز‑بلتراچینی از دانشگاه ادینبرو، وقتی سامانه روی یک مهارت تمرکز میکند، ممکن است مهارتهای دیگرش تضعیف شود.
- گامبهگام فکر کردن: مدلهای استدلالی برای حل مسئله مراحل متعددی را طی میکنند؛ اگر در هر مرحله خطا رخ دهد، اشتباههای کوچک جمع میشود و خروجی نهایی غلط از آب درمیآید.
اثرات این پدیده در دنیای واقعی
خطاهای جزئی شاید در جستوجوی تفریحی آسیبزا نباشد، اما در متونی مثل اسناد دادگاه، دادههای پزشکی یا گزارشهای تجاری، یک جمله اشتباه میتواند هزینهزا باشد. پراتیک ورما، مدیرعامل Okahu که روی کاهش هالوسینیشن کار میکند، هشدار میدهد: «اگر این خطاها مدیریت نشود، عملاً ارزش استفاده از هوش مصنوعی از بین میرود؛ چون قرار است کار را آسان کند، نه سختتر.»
کلام آخر چشمانداز
شرکتها وعده دادهاند نرخ خطا را پایین بیاورند، اما کارشناسان معتقدند توهمهای هوش مصنوعی بهطور کامل حذف نخواهد شد. کاربران و کسبوکارها ناچارند میان سرعت و سهولت این ابزارها و ریسک خطای آنها توازن برقرار کنند.