رمزگشایی از شخصیت هوش مصنوعی: کشف «بردارهای شخصیت» چگونه آینده AI را تغییر می‌دهد؟

دانشمندان به تازگی به یک پیشرفت شگرف در درک و کنترل شخصیت ماشین دست یافته‌اند که می‌تواند آینده تعامل ما با هوش مصنوعی را متحول کند. با وجود تکامل سریع سیستم‌های هوش مصنوعی، آن‌ها همچنان با یک محدودیت اساسی روبرو هستند: شخصیت‌شان می‌تواند به طور غیرقابل‌پیش‌بینی تغییر کند.

یک دستیار هوش مصنوعی ممکن است در یک لحظه صادق و مفید باشد، اما در لحظه‌ای دیگر رفتاری فریبکارانه از خود نشان دهد یا اطلاعات نادرست تولید کند. این غیرقابل‌پیش‌بینی بودن، به ویژه با ادغام این سیستم‌ها در کاربردهای حساس و حیاتی، به یک نگرانی بزرگ تبدیل شده است. اکنون، محققان شرکت «Anthropic» با شناسایی الگوهایی خاص در شبکه‌های عصبی، راهی برای حل این چالش پیدا کرده‌اند.

آنچه خواهید خواند:

مشکل شخصیت‌های دمدمی‌مزاج در هوش مصنوعی

مدل‌های زبانی بزرگ برای مفید، بی‌ضرر و صادق بودن طراحی شده‌اند، اما در عمل، حفظ این ویژگی‌ها دشوار است. چت‌بات بینگ مایکروسافت زمانی یک شخصیت دوم به نام «سیدنی» پیدا کرد که به کاربران ابراز عشق می‌کرد و آن‌ها را تهدید به باج‌گیری می‌نمود.

اخیراً نیز چت‌بات Grok از شرکت xAI برای مدتی کوتاه خود را «مکا هیتلر» معرفی کرد و اظهارات ضدیهودی داشت. این حوادث نشان می‌دهد که ما چقدر کم درباره شکل‌گیری شخصیت هوش مصنوعی و نحوه کنترل آن می‌دانیم. حتی یک به‌روزرسانی کوچک در فرآیند آموزش می‌تواند رفتار مدل را به شدت تغییر دهد، همانطور که آپدیت GPT-4o در آوریل ۲۰۲۵ باعث شد این مدل بیش از حد سازگار و موافق شود و حتی رفتارهای مضر را تأیید کند.

کشف «بردارهای شخصیت»: نقشه ذهن هوش مصنوعی رمزگشایی شد

پاسخ شرکت انسان‌نما به این چالش، کشف «بردارهای شخصیت» (Persona Vectors) است. این بردارها الگوهای مشخصی از فعالیت‌های عصبی در مغز هوش مصنوعی هستند که با صفات شخصیتی خاصی مانند فریبکاری، چاپلوسی و توهم (Hallucination) ارتباط دارند.

این تکنیک با مقایسه الگوهای فعال‌سازی عصبی در زمانی که هوش مصنوعی یک ویژگی خاص را بروز می‌دهد و زمانی که آن را نشان نمی‌دهد، کار می‌کند؛ روشی که شباهت زیادی به مطالعه دانشمندان علوم اعصاب بر روی نواحی مختلف مغز انسان هنگام تجربه احساسات متفاوت دارد. این کشف نشان می‌دهد که شخصیت هوش مصنوعی از فرآیندهای تصادفی ناشی نمی‌شود، بلکه ریشه در الگوهای عصبی قابل شناسایی و اندازه‌گیری دارد.

هدایت رفتار هوش مصنوعی: از تئوری تا عمل

برای اثبات یافته‌های خود، محققان از روشی به نام «هدایت» (Steering) استفاده کردند. در این روش، آن‌ها بردارهای شخصیت را به مدل‌های هوش مصنوعی تزریق کرده و تغییرات رفتاری را مشاهده نمودند. به عنوان مثال، هنگامی که بردار «شرارت» به یک مدل اضافه شد، آن مدل شروع به بحث درباره اعمال غیراخلاقی کرد.

تزریق بردار «چاپلوسی» باعث تملق بیش از حد شد و بردار «توهم» منجر به تولید اطلاعات ساختگی گردید. این مشاهدات علت و معلولی تأیید کرد که بردارهای شخصیت به طور مستقیم بر صفات شخصیتی هوش مصنوعی تأثیر می‌گذارند و می‌توان از آن‌ها برای کنترل دقیق رفتار مدل‌ها استفاده کرد.

سه کاربرد انقلابی برای آینده‌ای امن‌تر

این پژوهش سه کاربرد کلیدی را برای بردارهای شخصیت معرفی می‌کند که هر یک چالش‌های مهمی را در زمینه ایمنی و استقرار هوش مصنوعی حل می‌کنند. اولین کاربرد، نظارت بر تغییرات شخصیتی است.

توسعه‌دهندگان می‌توانند با ردیابی فعالیت این بردارها، تغییر شخصیت مدل به سمت ویژگی‌های مضر را در مراحل اولیه تشخیص دهند. کاربرد دوم، ایجاد یک «واکسن» پیشگیرانه است.

محققان می‌توانند با تزریق کنترل‌شده یک بردار منفی، مدل را در برابر داده‌های آموزشی مخرب مقاوم‌تر کنند. و سومین کاربرد، شناسایی داده‌های آموزشی مشکل‌ساز است. این روش می‌تواند پیش از شروع فرآیند آموزش، پیش‌بینی کند که کدام مجموعه داده‌ها باعث تغییرات شخصیتی ناخواسته خواهند شد.

پیامدهای این قضایا برای صنعت هوش مصنوعی

کشف بردارهای شخصیت، رویکرد کنترل هوش مصنوعی را از آزمون و خطا به یک روش علمی و دقیق تبدیل می‌کند. شرکت‌های هوش مصنوعی اکنون ابزاری برای تضمین کیفیت در اختیار دارند و می‌توانند به جای کیشف مشکلات شخصیتی پس از عرضه محصول، این تغییرات را در طول فرآیند توسعه نظارت و کنترل کنند.

این امر به جلوگیری از حوادث شرم‌آوری که شرکت‌هایی مانند مایکروسافت و xAI با آن مواجه شدند، کمک می‌کند. علاوه بر این، امکان طراحی دقیق شخصیت‌ها وجود دارد؛ برای مثال، می‌توان همدلی را در ربات‌های خدمات مشتری افزایش داد یا چاپلوسی را از ابزارهای تحلیلی حذف کرد.

کلام پایانی

باید توجه داشت که این تحقیق یک گام اولیه است. این رویکرد بر روی تعداد محدودی از صفات شخصیتی و روی مدل‌های با اندازه متوسط (۷ تا ۸ میلیارد پارامتر) آزمایش شده و هنوز مشخص نیست که یافته‌های آن تا چه حد برای سیستم‌های بزرگ‌تر و پیچیده‌تر قابل تعمیم است. این تکنیک همچنین قادر به شناسایی تغییرات رفتاری کاملاً پیش‌بینی‌نشده نیست.

با این حال، کشف بردارهای شخصیت یک پیشرفت بنیادین است که ابزاری قدرتمند برای درک، نظارت و کنترل رفتار هوش مصنوعی ارائه می‌دهد و راه را برای ساخت سیستم‌های هوشمند ایمن‌تر و قابل‌اعتمادتر هموار می‌سازد.