هوش مصنوعی

افزایش نرخ توهم در مدل‌های جدید هوش مصنوعی

زمان مطالعه: 2 دقیقه

مدل‌های جدید هوش مصنوعی با افزایش نرخ توهم مواجه شده‌اند، که تهدیدی برای دقت و کاربردهای این فناوری‌ها به‌ویژه در زمینه‌های حساس است.

با وجود ارتقای مدل‌های استدلالی در چت‌بات‌های هوش مصنوعی مانند ChatGPT و  Gemini، بررسی‌های تازه نشان می‌دهد که این نسخه‌های جدید نسبت به مدل‌های قبلی خطاهای بیشتری تولید می‌کنند. این خطاها که در زبان تخصصی هوش مصنوعی «توهم» نامیده می‌شوند، نه‌تنها کاهش نیافته‌اند، بلکه در برخی مدل‌ها حتی افزایش هم داشته‌اند.

توهم؛ خطای مزمن مدل‌های زبانی

توهم اصطلاحی است برای توصیف اشتباهاتی که مدل‌های زبانی بزرگ مرتکب می‌شوند؛ مانند ارائه اطلاعات نادرست به‌عنوان واقعیت، یا پاسخ‌هایی که گرچه صحیح هستند، اما ربطی به سؤال ندارند یا دستورالعمل را به‌درستی دنبال نمی‌کنند.

بر اساس گزارشی فنی از شرکت  OpenAI، مدل‌های جدید این شرکت به نام‌های o3 و o4-mini که در آوریل ۲۰۲۵ عرضه شدند، نسبت به مدل قبلی یعنی o1 (منتشرشده در اواخر ۲۰۲۴) نرخ توهم بیشتری داشته‌اند. به‌عنوان مثال، مدل o3  در هنگام خلاصه‌سازی اطلاعات عمومی درباره افراد، در ۳۳٪ موارد دچار توهم شد و این عدد برای o4-mini حتی به ۴۸٪ رسید. در حالی که مدل o1 تنها ۱۶٪ نرخ توهم داشت.

مسئله فقط OpenAI نیست

مشکل توهم تنها محدود به محصولات OpenAI نیست. داده‌های ارائه‌شده در رتبه‌بندی شرکت Vectara نشان می‌دهد برخی مدل‌های استدلالی دیگر مانند مدل DeepSeek-R1 نیز نسبت به نسخه‌های قبلی خود افزایش قابل توجهی در نرخ توهم داشته‌اند. این مدل‌ها برای پاسخ‌دادن، مراحل متعددی از استدلال را طی می‌کنند.

با این حال، OpenAI  معتقد است که مدل‌های استدلالی ذاتاً مستعد توهم نیستند. سخنگوی این شرکت اعلام کرده: «ما فعالانه در حال کاهش نرخ بالای توهم در مدل‌های جدید هستیم و به تحقیقات برای بهبود دقت ادامه خواهیم داد.»

توهم و کاربردهای خطرناک

توهم در مدل‌های زبانی می‌تواند کارایی آن‌ها را در بسیاری از کاربردها زیر سؤال ببرد. از دستیار تحقیقاتی که نیازمند اطلاعات دقیق است گرفته تا چت‌بات حقوقی که نباید به پرونده‌های خیالی استناد کند. حتی اشتباه یک چت‌بات خدمات مشتری که به قوانین منقضی‌شده استناد می‌کند می‌تواند برای شرکت دردسرساز شود.

شرکت‌های هوش مصنوعی زمانی وعده داده بودند که توهم با گذشت زمان کاهش خواهد یافت؛ اما نرخ بالای توهم در نسخه‌های اخیر این خوش‌بینی را با تردید مواجه کرده است.

آیا رتبه‌بندی‌ها قابل اعتمادند؟

رتبه‌بندی Vectara براساس توانایی مدل‌ها در خلاصه‌سازی دقیق اسناد تنظیم شده، اما کارشناسانی مانند «امیلی بندر» از دانشگاه واشینگتن هشدار می‌دهند که این روش نمی‌تواند معیاری جامع برای ارزیابی مدل‌ها در تمام وظایف باشد. او همچنین تأکید می‌کند که مدل‌های زبانی اساساً برای درک معنایی طراحی نشده‌اند، بلکه بر اساس پیش‌بینی کلمه بعدی کار می‌کنند و به همین دلیل ممکن است پاسخ‌هایی غیرقابل اعتماد تولید کنند.

بندر همچنین استفاده از واژه «توهم» را گمراه‌کننده می‌داند، چراکه هم به اشتباهات هوش مصنوعی رنگ و بوی انسانی می‌دهد و هم این تصور را ایجاد می‌کند که خطاها موارد استثنایی هستند، در حالی که ممکن است ساختاری و دائمی باشند.

خطاهای فراتر از توهم

«آروویند نارایانان» از دانشگاه پرینستون معتقد است که مسئله فقط به توهم محدود نمی‌شود. به گفته او، مدل‌ها گاهی از منابع نامعتبر استفاده می‌کنند یا به اطلاعات منسوخ استناد می‌کنند. افزایش حجم داده‌های آموزشی یا قدرت پردازش نیز لزوماً این خطاها را کاهش نداده است.

او پیشنهاد می‌کند که شاید بهترین راه استفاده از مدل‌های زبانی، محدود کردن آن‌ها به وظایفی باشد که در آن‌ها صحت پاسخ را بتوان سریع‌تر از روش‌های سنتی بررسی کرد. بندر نیز توصیه می‌کند که به‌طور کلی نباید برای دریافت اطلاعات واقعی به چت‌بات‌های هوش مصنوعی اعتماد کرد.

Adblock test (Why?)

لینک مطلب اصلی

Nobody

Who is mahdizk? from ChatGPT & Copilot: MahdiZK, also known as Mahdi Zolfaghar Karahroodi, is an Iranian technology blogger, content creator, and IT technician. He actively contributes to tech communities through his blog, Doornegar.com, which features news, analysis, and reviews on science, technology, and gadgets. Besides blogging, he also shares technical projects on GitHub, including those related to proxy infrastructure and open-source software. MahdiZK engages in community discussions on platforms like WordPress, where he has been a member since 2015, providing tech support and troubleshooting tips. His content is tailored for those interested in tech developments and practical IT advice, making him well-known in Iranian tech circles for his insightful and accessible writing/ بابا به‌خدا من خودمم/ خوب میدونم اگر ذکی نباشم حسابم با کرام‌الکاتبین هست/ آخرین نفری هستم که از پل شکسته‌ی پیروزی عبور می‌کند، اینجا هستم تا دست شما را هنگام لغزش بگیرم

نوشته های مشابه

0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest

0 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دکمه بازگشت به بالا