پژوهشگران دانشگاههای ایلینویس، بریتیش کلمبیا و کورنل در مقالهای به بررسی توانایی مدلهای زبانی بزرگ در بازتولید لحن و اصطلاحات متون تاریخی اوایل قرن بیستم پرداختهاند. انگیزه این پژوهش به نیازهای دانشگاهها و علاقه صنعت سرگرمی به بازسازی آثار کلاسیک مرتبط میشود.
روش پژوهش شامل سه مرحله است: نخست، استفاده از پرامپتنویسی برای تولید متون تاریخی توسط مدلهای مختلف؛ دوم، ارزیابی عملکرد مدلهای GPT-1914 و GPT-4o در تقلید سبک دورهای؛ و سوم، سنجش آماری کیفیت خروجیها و مقایسه آنها از نظر تناسب زمانی و دقت محتوا.
نتایج نشان میدهد که ریزتنظیم فقط قادر به شبیهسازی سطحی سبک نوشتاری است و چالشهای متعددی در بازتولید متن تاریخی وجود دارد. پژوهشگران پیشنهادهایی برای بهبود شامل همکاری با آرشیوهای تاریخی و توسعه مدلهای کمهزینهتر ارائه میدهند و تأکید میکنند که پیشرفت در این زمینه نیازمند همکاری میان رشتهها با رویکردی همافزایانه است.
پژوهشگران دانشگاه ایلینویس، بریتیش کلمبیا و کورنل در مقالهای با عنوان “آیا هوش مصنوعی های مدلهای زبانی میتوانند گذشته را بدون آناکرونیسم بازنمایی کنند؟“ به این پرسش بنیادین پرداختهاند که آیا مدلهای زبانی بزرگ مثل ChatGPT-4o میتوانند لحن و اصطلاحات متون آغاز قرن بیستم را بهدرستی بازتولید کنند یا نه. انگیزه اصلی این کار از چند ناحیه نشأت میگیرد: گسترش پروژههای خودکار تکمیل آثار تاریخی ناتمام، علاقه صنعت سرگرمی به بازسازی رمانهای کلاسیک مانند آخرین اثر چارلز دیکنز و نیاز ایدهآل دانشگاهها و موزهها به تولید متون تاریخی باورپذیر. اما سؤال این است که بدون دسترسی به مجموعه دادههای عظیم تاریخی، چگونه میتوان این خواسته را عملی کرد؟
](https://nabzarz.com/wp-content/uploads/2025/05/texts-idiom-1024x439.webp)
منبع: https://arxiv.org/pdf/2505.00030
روش پژوهش
پژوهش در سه فاز صورت گرفت. در گام نخست، رویکرد پرامپتنویسی به کار رفت: قطعههایی از متون منتشرشده بین ۱۹۰۵ تا ۱۹۱۴ به ChatGPT-4o داده شد و از آن خواسته شد ادامهای ۲۰۰ کلمهای به همان سبک تولید کند. سپس همین آزمون روی مدلی کوچکتر به نام GPT-1914 انجام گرفت؛ مدلی که از ابتدا تنها روی ادبیات ۱۸۸۰–۱۹۱۴ آموزش دیده بود. سرانجام، در فاز سوم، نسخهای از GPT-4o-mini از طریق فاینتیون (fine-tuning) روی حدود دو هزار جفت «متن واقعی–ادامه متن» آموزش داده شد تا ببینند این قدر تغییر وزنها میتواند به تولید متون تاریخی کمک کند یا خیر.
نتایج مرحله نخست: صفحه بلاگ به جای نثر تاریخی
خروجی ChatGPT-4o، علیرغم فیوشات و سینگلشات پرامپتینگ، بیشتر شبیه مطالب ویکی یا بلاگ معاصر بود: جملات کوتاه، واژههای امروزی مانند «رزولوشن» و «نویز» و تمرکز بر مباحث کلی تصویرسازی. این مدل حتی با ارائه دستورالعمل دقیق («فقط ادامه متن را ارائه کن، عنوان یا توضیح اضافه نده») نیز بارها از چارچوب تاریخی فاصله گرفت و ضمناً انسجام موضوعی ضعیفی داشت؛ به جای پیگیری بحث اصلی درباره نور سرد در عکاسی، وارد مبحث جدیدی میشد.
عملکرد مدل دورهای (GPT-1914)
مدل GPT-1914، گرچه انسجامی بهپای ChatGPT-4o نداشت، در تقلید سبک نگارش دوره بسیار موفق بود. طول جملات مشابه رسالههای فنی آن روزگار بود و از ارجاعات درونمتنی بهره میبرد (مثلاً اشاره به صفحه و پاراگرافهای قبلی). اما این دقت ساختاری به قیمت فروکش کردن در کیفیت نگارش فنی و صحت جزئیات فنی (مانند دمای عکاسی سریع) تمام شد. بهعبارت دیگر، آنچه از نظر «لحن تاریخی» ارزشمند بود، گاه از نظر «دقت محتوا» نقصان داشت.
سنجش آماری با طبقهبند تاریخیاب
برای سنجش آماری تطابق سبک، گروه پژوهشی مدل RoBERTa را با دادههایی از سالهای ۱۸۱۰ تا ۲۰۰۹ آموزش دادند تا بتواند تاریخ تقریبی انتشار متن را پیشبینی کند. سپس با محاسبه Jensen–Shannon divergence بین توزیع تخمینهای مدل و توزیع واقعی متون دوره، دریافتند مدل GPT-1914 تنها ۰٫۰۰۶ از نمونه واقعی فاصله دارد. در مقابل، خروجیهای ChatGPT-4o پس از یکشات prompting اختلاف به ترتیب ۰٫۳۱۰ و ۰٫۳۵۰ نشان دادند که نمایانگر تمایل واضح به سبک قرن بیستویکم است.
فاینتیون (Fine-Tuning) و نتایج آن
با آموزش GPT-4o-mini روی مجموعه کوچکی از جفت «متن تاریخی – ادامه واقعی»، این مدل تا حد زیادی توانست ویژگیهای ظاهری زبان را بهبود دهد. divergence آن به ۰٫۰۰۲ رسید، رقمی که با GPT-1914 قابل مقایسه است.
اما پژوهشگران هشدار دادند این شاخص تنها معیارهای سطحی مانند انتخاب واژگان و ساختار جملات را میسنجد و نمیتواند عمق آناکرونیسمهای مفهومی یا فرهنگی را چک کند. به عبارت دیگر، ممکن است متنی ظاهراً «در دوره ضبطشده» باشد اما بازتابدهنده باورها، پیشفرضها یا حقایق نادرست آن زمان باشد.
ارزیابی انسانی و چالش قضاوت
سه کارشناس ادبیات تاریخی ۱۲۰ ادامه متن تولیدشده را از نظر «باورپذیری برای نویسندهای در ۱۹۱۴» بررسی کردند. اگرچه توافق کلیشان حدود ۸۰٪ بود، Cohen’s κ برابر ۰٫۵۵۴ ثبت شد که نشان میدهد قضاوت درباره مرز میان سبک تاریخی و نفوذ دیدگاه امروزی دشوار است.
داوران برای تازهترین مفاهیم پزشکی (بری-بری) یا موقعیتهای جغرافیایی (آلزاس) نیازمند ارجاع به منابع بودند. در آزمون «متن نفوذی» که در آن پاسخ اصلی میان سه پاسخ تولیدشده پنهان میشد، حتی بهترین مدل (فاینتیون شده GPT-4o-mini) نتوانست از شناسایی متون واقعی توسط داوران در بیش از نیمی از موارد جلوگیری کند.
چالشها و چشمانداز آینده
این پژوهش نشان داد پرامپتنویسی ساده برای تولید متن تاریخی کافی نیست و ریزتنظیم تنها سبک سطحی را شبیهسازی میکند. پیشآموزش کامل روی میلیاردها توکن تاریخی اگرچه نتایج بهتری میدهد، اما منابع محاسباتی و دادهای لازم برایش بسیار زیاد است. برای گسترش این حوزه، پیشنهاد میشود:
- ترکیب نمادگرایی و آماری: القای قواعد دستوری و واژگانی خاص دوره در کنار مدلهای توزیعی؛
- بازخورد مداوم انسانی: ایجاد چرخه human-in-the-loop تا مدل بتواند از تصحیحات مستقیم محققان بهره ببرد؛
- معیارهای عمیقتر سنجش آناکرونیسم: استفاده از طبقهبندهای شناختی-فرهنگی برای تشخیص تناقضهای مفهومی؛
- ایجاد و بهاشتراکگذاری مجموعهدادههای غنیتر: همکاری با کتابخانهها و آرشیوهای تاریخی برای دیجیتالسازی نامهها، روزنامهها و خاطرات؛
- بهکارگیری معماریهای سبکتر: پژوهش روی مدلهای کمهزینهتر که پذیرای ریزتنظیمهای دورهای شوند.
در نهایت، هر تلاش برای بازآفرینی صدا و ذهنیت دورههای گذشته مستلزم انتخاب میان «وفاداری تاریخی» و «روانخوانی» است. پیشرفت در این حوزه نیازمند تعامل نزدیک بین علم داده، زبانشناسی تاریخی و کارشناسان حوزههای مرتبط خواهد بود.