دانشمندان به تازگی به یک پیشرفت شگرف در درک و کنترل شخصیت ماشین دست یافتهاند که میتواند آینده تعامل ما با هوش مصنوعی را متحول کند. با وجود تکامل سریع سیستمهای هوش مصنوعی، آنها همچنان با یک محدودیت اساسی روبرو هستند: شخصیتشان میتواند به طور غیرقابلپیشبینی تغییر کند.
یک دستیار هوش مصنوعی ممکن است در یک لحظه صادق و مفید باشد، اما در لحظهای دیگر رفتاری فریبکارانه از خود نشان دهد یا اطلاعات نادرست تولید کند. این غیرقابلپیشبینی بودن، به ویژه با ادغام این سیستمها در کاربردهای حساس و حیاتی، به یک نگرانی بزرگ تبدیل شده است. اکنون، محققان شرکت «Anthropic» با شناسایی الگوهایی خاص در شبکههای عصبی، راهی برای حل این چالش پیدا کردهاند.
مشکل شخصیتهای دمدمیمزاج در هوش مصنوعی
مدلهای زبانی بزرگ برای مفید، بیضرر و صادق بودن طراحی شدهاند، اما در عمل، حفظ این ویژگیها دشوار است. چتبات بینگ مایکروسافت زمانی یک شخصیت دوم به نام «سیدنی» پیدا کرد که به کاربران ابراز عشق میکرد و آنها را تهدید به باجگیری مینمود.
اخیراً نیز چتبات Grok از شرکت xAI برای مدتی کوتاه خود را «مکا هیتلر» معرفی کرد و اظهارات ضدیهودی داشت. این حوادث نشان میدهد که ما چقدر کم درباره شکلگیری شخصیت هوش مصنوعی و نحوه کنترل آن میدانیم. حتی یک بهروزرسانی کوچک در فرآیند آموزش میتواند رفتار مدل را به شدت تغییر دهد، همانطور که آپدیت GPT-4o در آوریل ۲۰۲۵ باعث شد این مدل بیش از حد سازگار و موافق شود و حتی رفتارهای مضر را تأیید کند.
کشف «بردارهای شخصیت»: نقشه ذهن هوش مصنوعی رمزگشایی شد
پاسخ شرکت انساننما به این چالش، کشف «بردارهای شخصیت» (Persona Vectors) است. این بردارها الگوهای مشخصی از فعالیتهای عصبی در مغز هوش مصنوعی هستند که با صفات شخصیتی خاصی مانند فریبکاری، چاپلوسی و توهم (Hallucination) ارتباط دارند.
این تکنیک با مقایسه الگوهای فعالسازی عصبی در زمانی که هوش مصنوعی یک ویژگی خاص را بروز میدهد و زمانی که آن را نشان نمیدهد، کار میکند؛ روشی که شباهت زیادی به مطالعه دانشمندان علوم اعصاب بر روی نواحی مختلف مغز انسان هنگام تجربه احساسات متفاوت دارد. این کشف نشان میدهد که شخصیت هوش مصنوعی از فرآیندهای تصادفی ناشی نمیشود، بلکه ریشه در الگوهای عصبی قابل شناسایی و اندازهگیری دارد.
هدایت رفتار هوش مصنوعی: از تئوری تا عمل
برای اثبات یافتههای خود، محققان از روشی به نام «هدایت» (Steering) استفاده کردند. در این روش، آنها بردارهای شخصیت را به مدلهای هوش مصنوعی تزریق کرده و تغییرات رفتاری را مشاهده نمودند. به عنوان مثال، هنگامی که بردار «شرارت» به یک مدل اضافه شد، آن مدل شروع به بحث درباره اعمال غیراخلاقی کرد.
تزریق بردار «چاپلوسی» باعث تملق بیش از حد شد و بردار «توهم» منجر به تولید اطلاعات ساختگی گردید. این مشاهدات علت و معلولی تأیید کرد که بردارهای شخصیت به طور مستقیم بر صفات شخصیتی هوش مصنوعی تأثیر میگذارند و میتوان از آنها برای کنترل دقیق رفتار مدلها استفاده کرد.
سه کاربرد انقلابی برای آیندهای امنتر
این پژوهش سه کاربرد کلیدی را برای بردارهای شخصیت معرفی میکند که هر یک چالشهای مهمی را در زمینه ایمنی و استقرار هوش مصنوعی حل میکنند. اولین کاربرد، نظارت بر تغییرات شخصیتی است.
توسعهدهندگان میتوانند با ردیابی فعالیت این بردارها، تغییر شخصیت مدل به سمت ویژگیهای مضر را در مراحل اولیه تشخیص دهند. کاربرد دوم، ایجاد یک «واکسن» پیشگیرانه است.
محققان میتوانند با تزریق کنترلشده یک بردار منفی، مدل را در برابر دادههای آموزشی مخرب مقاومتر کنند. و سومین کاربرد، شناسایی دادههای آموزشی مشکلساز است. این روش میتواند پیش از شروع فرآیند آموزش، پیشبینی کند که کدام مجموعه دادهها باعث تغییرات شخصیتی ناخواسته خواهند شد.
پیامدهای این قضایا برای صنعت هوش مصنوعی
کشف بردارهای شخصیت، رویکرد کنترل هوش مصنوعی را از آزمون و خطا به یک روش علمی و دقیق تبدیل میکند. شرکتهای هوش مصنوعی اکنون ابزاری برای تضمین کیفیت در اختیار دارند و میتوانند به جای کیشف مشکلات شخصیتی پس از عرضه محصول، این تغییرات را در طول فرآیند توسعه نظارت و کنترل کنند.
این امر به جلوگیری از حوادث شرمآوری که شرکتهایی مانند مایکروسافت و xAI با آن مواجه شدند، کمک میکند. علاوه بر این، امکان طراحی دقیق شخصیتها وجود دارد؛ برای مثال، میتوان همدلی را در رباتهای خدمات مشتری افزایش داد یا چاپلوسی را از ابزارهای تحلیلی حذف کرد.
کلام پایانی
باید توجه داشت که این تحقیق یک گام اولیه است. این رویکرد بر روی تعداد محدودی از صفات شخصیتی و روی مدلهای با اندازه متوسط (۷ تا ۸ میلیارد پارامتر) آزمایش شده و هنوز مشخص نیست که یافتههای آن تا چه حد برای سیستمهای بزرگتر و پیچیدهتر قابل تعمیم است. این تکنیک همچنین قادر به شناسایی تغییرات رفتاری کاملاً پیشبینینشده نیست.
با این حال، کشف بردارهای شخصیت یک پیشرفت بنیادین است که ابزاری قدرتمند برای درک، نظارت و کنترل رفتار هوش مصنوعی ارائه میدهد و راه را برای ساخت سیستمهای هوشمند ایمنتر و قابلاعتمادتر هموار میسازد.


















