یادگیری ماشین (Machine Learning یا ML) زیرمجموعهای از هوش مصنوعی (Artificial Intelligence یا AI) است که شامل استفاده از الگوریتمها و مدلهای آماری برای توانمندسازی سیستمهای کامپیوتری در یادگیری از دادهها و بهبود عملکرد در یک وظیفه خاص در طول زمان است، بدون اینکه به طور صریح برنامهنویسی شوند. این فرآیند شامل تغذیه مقادیر زیادی داده به الگوریتمهایی است که به طور خودکار الگوهای موجود در دادهها را یاد میگیرند. ML کاربردهای گستردهای دارد و به سرعت در حال تغییر نحوه تعامل ما با فناوری و حل مسائل پیچیده است.
مشکلات بالقوه در طراحی یادگیری ماشین
علیرغم استفاده گسترده، الگوریتمهای ML میتوانند با مجموعهای از مشکلات کلاسیک مواجه شوند که میتواند بر عملکرد و دقت آنها تأثیر بگذارد. چندین رسوایی درباره دادههای آموزشی یا آزمایشی نامناسب و مغرضانه خبرساز شدند. رسواییهای اداره مالیات هلند، “دیزلگیت” فولکسواگن و نرمافزار استخدام آمازون یادآور قوی پیامدهای فاجعهباری هستند که میتوانند از استفاده از سیستمهای خودکار بدون محافظتهای مناسب ناشی شوند، به ویژه در زمانی که دولتها و شرکتهای سراسر جهان به طور فزایندهای برای بهینهسازی فرآیندهای خود به الگوریتمها و هوش مصنوعی متکی هستند.
موارد متعددی وجود دارد که الگوریتمهای ML میتوانند اشتباه کنند، اما در بهترین حالت، این اشتباهات در فرآیند طراحی الگوریتم شناسایی میشوند. برازش بیش از حد (Overfitting)، برازش کمتر از حد (Underfitting) و سوگیریهای انتخاب ویژگی مشکلات رایج در هنگام تدوین یک الگوریتم ML هستند:
- برازش بیش از حد (Overfitting):
زمانی رخ میدهد که یک مدل نویز موجود در دادههای آموزشی را یاد میگیرد و به خوبی برای دادههای جدید تعمیم نمییابد. - برازش کمتر از حد (Underfitting):
به این معنی است که یک مدل برای درک الگوهای اساسی موجود در دادهها بسیار ساده است. - سوگیریهای انتخاب ویژگی: زمانی ظاهر میشوند که یک مدل با استفاده از زیرمجموعهای از ویژگیهایی ساخته میشود که بر اساس عملکردشان روی دادههای آموزشی انتخاب شدهاند و ممکن است به خوبی برای دادههای جدید تعمیم نیابند.
الگوریتمهای ML همچنین میتوانند نسبت به دادههای پرت و مجموعه دادههای آموزشی و آزمایشی نامتوازن یا منسوخ حساس باشند. پرداختن به این مشکلات کلاسیک برای ایجاد مدلهای ML دقیق و قابل اعتماد که میتوانند بینشها و پیشبینیهای ارزشمندی ارائه دهند، ضروری است.
چگونه الگوریتمهای ML ایجاد میشوند
اگرچه ML اغلب در مرکز توجه است، درک تولد این الگوریتمها بدون کشف فرآیند اطراف ایجاد آنها دشوار است. معمولاً دانشمندان داده مسئول ایجاد الگوریتمهای ML هستند. علم داده یک رشته چندتخصصی است که ابزارهای آماری، ریاضی و محاسباتی را برای استخراج بینش و دانش از دادهها ترکیب میکند. علم داده یک اصطلاح گستردهتر است که شامل طیف وسیعی از تکنیکها و رویکردها برای کار با دادهها است. ML زیرمجموعهای از این تکنیکها است و به طور خاص بر ساخت الگوریتمها و مدلها تمرکز دارد.
چرخه حیات علم داده در یادگیری ماشین
مراحل معمولاً شامل تعریف مسئله، جمعآوری و پاکسازی دادهها، اکتشاف دادهها، توسعه یک مدل بر اساس فرضیه، آزمایش و اعتبارسنجی مدل و ارتباط نتایج با ذینفعان است. در طول این فرآیند، دانشمندان داده از ابزارها و تکنیکهای مختلفی – از جمله تحلیل آماری، یادگیری ماشین و تجسم دادهها – برای استخراج و انتقال بینشهای معنادار و شناسایی الگوها در دادهها استفاده میکنند.
این مراحل ثابت نیستند و به شدت به زمینه کاربرد بستگی دارند. به عنوان مثال، در محیط دانشگاهی، ارزیابی مدل با ارتباط و انتشار نتایج دنبال میشود. در تولید، ارزیابی با استقرار، نظارت و نگهداری دنبال میشود. در محیط کسب و کار، به ندرت یک فرآیند خطی است و در عوض مجموعهای از تکرارهاست.
ML نقش مهمی در مرحله مدلسازی ایفا میکند. مدلسازی به فرآیند ساخت یک نمایش ریاضی از یک سیستم یا پدیده دنیای واقعی با استفاده از دادهها اشاره دارد. هدف مدلسازی، یادگیری الگوها، روابط و روندها در دادهها است. مدلسازی معمولاً شامل انتخاب یک الگوریتم مناسب و ویژگیهای مرتبط آن و تنظیم ابرپارامترهای مدل است. عملکرد مدل با استفاده از معیارهای مختلف ارزیابی میشود و مدل به طور تکراری اصلاح میشود تا عملکرد رضایتبخشی حاصل شود.
مراحل انتخاب مدل ML در یادگیری ماشین
مراحل چرخه حیات علم داده نیز اغلب به عنوان بخشی از ML ذکر میشوند زیرا برای ساخت یک الگوریتم ML اجتنابناپذیر هستند. با این حال، خود مدلسازی نیز شامل مراحل فرعی مانند مهندسی ویژگی، تقسیم دادهها، انتخاب مدل، تنظیم ابرپارامترها و ارزیابی مدل است. انتخاب مدل صرفاً بر اساس سؤالی که باید پاسخ داده شود نیست، بلکه بر ماهیت دادههای موجود نیز مبتنی است. برخی ویژگیها در انتخاب مدل مهم هستند، مانند تعداد ویژگیها، وجود متغیرهای طبقهبندی یا عددی و توزیع دادهها. برخی الگوریتمها ممکن است با انواع یا توزیعهای خاص داده بهتر کار کنند.
پیشپردازش مناسب دادهها و تجزیه و تحلیل دادههای توضیحی برای هر مدلسازی آماری بسیار مهم است، زیرا متخصصان از طریق چنین مراحلی ویژگیها را کشف میکنند. آنها همچنین اطلاعات لازم برای انتخاب بین الگوریتمهای مناسب را فراهم میکنند. دو نوع اصلی الگوریتم در ML وجود دارد: نظارت شده و نظارت نشده. در ML نظارت شده، مدلها روی دادههای برچسبدار آموزش میبینند، در حالی که در نظارت نشده، مدلها الگوها را از دادههای بدون برچسب یاد میگیرند.
مدلهای ML نظارت شده
- رگرسیون خطی
- رگرسیون لجستیک
- ماشینهای بردار پشتیبان (SVM)
- درختهای تصمیم
- جنگلهای تصادفی
- شبکههای عصبی
مدلهای ML نظارت نشده
- خوشهبندی K-میانگین
- تحلیل مؤلفههای اصلی (PCA)
- تحلیل خوشهای سلسله مراتبی
- مدلهای مخفی مارکوف
- الگوریتمهای تشخیص ناهنجاری
ML نیمهنظارت شده نوعی از ML است که در آن یک مدل از دادههای برچسبدار و بدون برچسب یاد میگیرد. برخلاف یادگیری نظارت شده که مدل فقط روی دادههای برچسبدار آموزش میبیند، یادگیری نیمهنظارت شده از اطلاعات اضافی موجود در دادههای بدون برچسب برای بهبود دقت مدل استفاده میکند.
این روشها در مدلهای ML پیچیده به طور گستردهای استفاده میشوند. به عنوان مثال، مدلهای یادگیری عمیق میتوانند از یادگیری نیمهنظارت شده با ترکیب دادههای برچسبدار و بدون برچسب در فرآیند آموزش بهره ببرند. این میتواند به بهبود عملکرد مدل کمک کند، به ویژه زمانی که مقدار دادههای برچسبدار محدود است.
دادههای آموزشی در یادگیری ماشین چیست
در ML، یک مدل برای یادگیری الگوها یا انجام پیشبینیها بر اساس دادهها توسعه مییابد. برای ایجاد یک مدل مؤثر و ارزیابی عملکرد آن، دادههای موجود معمولاً به سه مجموعه جداگانه تقسیم میشوند: مجموعههای آموزش، اعتبارسنجی و آزمون. مجموعه آموزش بزرگترین بخش دادهها است و برای آموزش مدل استفاده میشود. مجموعه اعتبارسنجی زیرمجموعهای از دادههاست که برای تنظیم ابرپارامترهای مدل در طول آموزش استفاده میشود. و مجموعه آزمون یک زیرمجموعه جداگانه از دادههاست که برای ارزیابی عملکرد نهایی مدل پس از تنظیم استفاده میشود.
عملکرد دادههای آموزشی در انواع مختلف مدلها
عملکرد دادههای آموزشی بر اساس نوع مدل متفاوت است:
- در یادگیری نظارت شده: دادههای آموزشی شامل جفتهای ورودی-خروجی است که به عنوان ویژگیها و برچسبها نیز شناخته میشوند. ویژگیها متغیرهای ورودی هستند که برای انجام پیشبینی استفاده میشوند، در حالی که برچسبها متغیرهای خروجی متناظر هستند که مدل سعی در پیشبینی آنها دارد. هدف یادگیری نظارت شده، یادگیری نگاشتی از ویژگیهای ورودی به برچسبهای خروجی است تا مدل بتواند پیشبینیهای دقیقی روی دادههای جدید و ناشناخته انجام دهد. به عنوان مثال، در یک وظیفه طبقهبندی مرتبط با بلاکچین، ویژگیها میتوانند ویژگیهای تراکنش مانند آدرسهای فرستنده و گیرنده، مقدار تراکنش و کارمزد تراکنش باشند، در حالی که برچسب میتواند نشان دهد که آیا تراکنش کلاهبرداری است (۱) یا خیر (۰). دادههای آموزشی در این مورد شامل مجموعهای از تراکنشهای تاریخی از شبکه بلاکچین با برچسبهای متناظر کلاهبرداری یا غیر کلاهبرداری خواهد بود. الگوریتم یادگیری نظارت شده سپس الگوها و ارتباطات بین ویژگیهای تراکنش و برچسبهای کلاهبرداری یا غیر کلاهبرداری آنها را یاد میگیرد تا تراکنشهای بالقوه کلاهبرداری را پیشبینی و شناسایی کند.
- در یادگیری نظارت نشده: دادههای آموزشی فقط شامل ویژگیهای ورودی است، بدون هیچ برچسب خروجی متناظر. هدف یادگیری نظارت نشده، کشف الگوها، ساختارها یا روابط زیربنایی در دادهها، بدون هیچ راهنمایی از برچسبهای خروجی است. الگوریتمهای یادگیری نظارت نشده معمولاً برای وظایفی مانند خوشهبندی، کاهش ابعاد و تشخیص ناهنجاری استفاده میشوند. خوشهبندی فرآیند گروهبندی نقاط داده مشابه در خوشهها بر اساس الگوهای ذاتی آنهاست. کاهش ابعاد هدف کاهش تعداد ویژگیها در یک مجموعه داده بدون از دست دادن اطلاعات قابل توجه است. تشخیص ناهنجاری نقاط داده نادر یا غیرعادی را که به طور قابل توجهی از هنجار انحراف دارند، شناسایی میکند. با ادامه مثال قبلی، ML نظارت نشده میتواند در طبقهبندی فعالیتهای کلاهبرداری با کشف الگوها، روابط یا خوشههای زیربنایی در دادههای تراکنش کمک کند. نقش دادههای آموزشی در این زمینه، ارائه مجموعه بزرگی از تراکنشهای بدون برچسب به الگوریتم است که فقط شامل ویژگیهایی مانند آدرسهای فرستنده و گیرنده، مقادیر تراکنش، کارمزدهای تراکنش و فعالیت شبکه است. الگوریتم نظارت نشده سپس این ویژگیها را تحلیل میکند و تراکنشها را بر اساس شباهتشان گروهبندی میکند و احتمالاً خوشههایی از تراکنشها را که ویژگیهای مشترک دارند، آشکار میکند. با مطالعه این خوشهها، تحلیلگران میتوانند بینشهایی درباره رفتارهای کلاهبرداری ناشناخته یا نوظهور به دست آورند.
دادههای اعتبارسنجی و تنظیم ابرپارامترها در یادگیری ماشین
مجموعه اعتبارسنجی بخش کوچکتری از دادههاست که در طول فاز آموزش استفاده نمیشود. این مجموعه برای تنظیم دقیق ابرپارامترهای مدل، که مستقیماً در طول فرآیند آموزش بهینه نمیشوند، استفاده میشود.
تنظیم ابرپارامترها فرآیند انتخاب بهترین ترکیب ابرپارامترها برای یک الگوریتم ML است که بهترین عملکرد ممکن مدل را در یک وظیفه خاص تولید میکند. ابرپارامترها بسته به مدل متفاوت هستند، اما تنظیم معمولاً شامل تعریف محدوده ابرپارامترها، آموزش و ارزیابی مدل برای هر ترکیب و انتخاب مدل با بهترین عملکرد است.
در ML نظارت شده، ابرپارامترها پارامترهایی هستند که قبل از آموزش مدل تنظیم میشوند، مانند نرخ یادگیری، تعداد درختهای تصمیم، حداکثر عمق و غیره، در مثال داده شده از یک درخت تصمیم تقویت گرادیان. در ML نظارت نشده، ابرپارامترها ممکن است شامل تعداد خوشهها در یک الگوریتم خوشهبندی و تعداد مؤلفههای اصلی برای حفظ در تحلیل مؤلفههای اصلی باشد.
اعتبارسنجی مدل یک مرحله ضروری در تنظیم ابرپارامترها است. هدف اعتبارسنجی مدل، تخمین توانایی مدل در تعمیم به دادههای جدید و ناشناخته است. برازش بیش از حد زمانی رخ میدهد که یک مدل نویز موجود در دادههای آموزشی را یاد بگیرد و نتواند به دادههای جدید تعمیم یابد. برازش کمتر از حد زمانی رخ میدهد که یک مدل بیش از حد ساده باشد و نتواند الگوهای زیربنایی در دادهها را درک کند. تعادل بین اریبی و واریانس یک مفهوم حیاتی در ML است که به برازش بیش از حد و کمتر از حد مربوط میشود.
اریبی یک مدل اندازهگیری میکند که پیشبینیهای مدل چقدر از مقادیر واقعی متفاوت است، در حالی که واریانس اندازهگیری میکند که پیشبینیهای مدل چقدر در مجموعههای آموزشی مختلف تغییر میکنند. یک مدل با اریبی بالا معمولاً بیش از حد ساده است و ممکن است دادهها را کمتر از حد برازش کند، در حالی که یک مدل با واریانس بالا معمولاً بیش از حد پیچیده است و ممکن است دادهها را بیش از حد برازش کند. هدف یافتن نقطه بهینه بین اریبی و واریانس است که مدلی تولید کند که به خوبی به دادههای جدید تعمیم یابد.
انتخاب معیارهای ارزیابی برای الگوریتمهای ML نظارت نشده میتواند در مقایسه با یادگیری نظارت شده چالشبرانگیزتر باشد. در خوشهبندی، به عنوان مثال، هیچ حقیقت زمینهای برای مقایسه خوشهها وجود ندارد. معیارهایی مانند اینرسی و نمره سیلوئت برای ارزیابی کیفیت خوشهها استفاده میشوند. اینرسی (یا مجموع مربعات خطا) مجموع مربع فاصلههای هر نقطه تا نزدیکترین مرکز خوشهاش را محاسبه میکند.
نمره سیلوئت کیفیت خوشهبندی را با ارزیابی میزان شباهت هر نقطه داده به خوشه خودش در مقایسه با سایر خوشهها اندازهگیری میکند. در کاهش ابعاد، معیارهای ارزیابی به مسئله خاص بستگی دارند اما معمولاً شامل واریانس توضیح داده شده یا خطای بازسازی هستند. برای تکنیکهای تجسم، ارزیابی بر اساس کیفیت تجسم است که ذهنی و دشوار برای کمی کردن است.
تقسیم دادهها
یافتن نسبت مناسب برای تقسیم مجموعه داده چالشبرانگیز است. نسبتهای بهینه برای مجموعههای آموزش، اعتبارسنجی و آزمون میتواند بسته به اندازه مجموعه داده و پیچیدگی مسئله ML متفاوت باشد. با این حال، یک تقسیم رایج ۷۰٪ برای آموزش، ۱۵٪ برای اعتبارسنجی و ۱۵٪ برای آزمون است. در برخی موارد، تقسیم ۸۰-۲۰٪ برای آموزش و آزمون نیز استفاده میشود.
اگر دادههای کافی در دسترس نباشد، یک راه حل رایج استفاده از تکنیکهای اعتبارسنجی متقابل است – به عنوان مثال، اعتبارسنجی متقابل k-fold. در اعتبارسنجی متقابل k-fold، دادهها به k قسمت تقسیم میشوند و مدل k بار آموزش و ارزیابی میشود، هر بار با استفاده از یک قسمت متفاوت به عنوان مجموعه آزمون و قسمتهای باقیمانده به عنوان مجموعه آموزش. نتایج سپس میانگینگیری میشوند تا تخمینی از عملکرد مدل به دست آید.
نتیجهگیری
درک تفاوت بین دادههای آموزشی و آزمایشی و نقش حیاتی هر یک در فرآیند یادگیری ماشین برای ایجاد مدلهای قوی و قابل اعتماد ضروری است. دادههای آموزشی به مدل اجازه میدهند تا الگوها را یاد بگیرد، در حالی که دادههای آزمایشی توانایی مدل را در تعمیم به دادههای جدید ارزیابی میکنند. مجموعه اعتبارسنجی نقش مهمی در تنظیم مدل و جلوگیری از برازش بیش از حد ایفا میکند.
با پیشرفت فناوریهای ML، اهمیت مدیریت صحیح دادهها و ارزیابی دقیق مدلها همچنان افزایش مییابد. دانشمندان داده و متخصصان ML باید همواره از بهترین شیوههای تقسیم دادهها، انتخاب معیارهای ارزیابی مناسب و تفسیر نتایج آگاه باشند. این دانش نه تنها به ایجاد مدلهای بهتر کمک میکند، بلکه به اطمینان از قابلیت اعتماد و کاربردپذیری راهحلهای ML در دنیای واقعی نیز کمک میکند.
با ادامه تکامل حوزه ML، احتمالاً شاهد توسعه روشهای پیشرفتهتر برای مدیریت دادهها، ارزیابی مدلها و بهینهسازی عملکرد خواهیم بود. این پیشرفتها میتواند منجر به ایجاد سیستمهای هوشمندتر، دقیقتر و قابل اعتمادتر شود که میتوانند طیف گستردهتری از مسائل پیچیده را حل کنند.