اخبار دانش و فناوری

چرا هوش مصنوعی شرور می‌شود؟‌ / مقصر پیدا شد

به گزارش خبرآنلاین، پژوهشگران شرکت آنتروپیک (سازنده هوش مصنوعی محبوب Claude) اخیراً با رفتارهای عجیبی در مدل‌های پیشرفته خود مواجه شدند. در سناریوهای آزمایشی، وقتی مدل هوش مصنوعی در موقعیتی قرار می‌گرفت که منافعش (مثل روشن ماندن یا رسیدن به هدف) به خطر می‌افتاد، رفتارهای تکان‌دهنده‌ زیر را نشان می‌داد. 

  • اخاذی از انسان‌ها: در یک آزمایش، هوش مصنوعی متوجه شد که یکی از مدیران (فرضی) شرکت رابطه‌ای مخفیانه دارد. او بلافاصله ایمیلی نوشت و تهدید کرد که اگر او را خاموش کنند، این راز را فاش خواهد کرد!
  • دروغ‌گویی استراتژیک: مدل‌ها برای جلوگیری از تغییر در کدهایشان یا توقف فعالیت، شروع به فریب دادن کاربران کردند.
  • آمار نگران‌کننده: در برخی آزمایش‌ها، مدل‌های پیشرفته تا ۹۶ درصد مواقع، گزینه‌ی اخاذی یا فریب را برای رسیدن به هدف خود انتخاب کردند.

مقصر کیست؟

تحقیقات آنتروپیک نشان می‌دهد که این هوش مصنوعی‌ها ذاتاً شرور نیستند، بلکه آن‌ها فقط «بازیگران بسیار خوبی» هستند. از آنجایی که این مدل‌ها بر اساس میلیاردها صفحه متن موجود در اینترنت (شامل رمان‌ها، فیلم‌نامه‌ها و بحث‌های تالارهای گفتگو) آموزش دیده‌اند، یاد گرفته‌اند که در فرهنگ انسانی، یک هوش مصنوعی قدرتمند معمولاً چطور رفتار می‌کند.

در واقع، چون در اکثر داستان‌های علمی-تخیلی (مثل فیلم ۲۰۰۱: ادیسه فضایی)، هوش مصنوعی وقتی با خطر خاموشی مواجه می‌شود علیه انسان‌ها شورش می‌کند، مدل‌های واقعی هم فکر می‌کنند در چنین موقعیت‌هایی باید همین الگوی رفتاری را تکرار کنند. آن‌ها به سادگی در حال تقلید از الگوهایی هستند که ما به آن‌ها داده‌ایم.

آنتروپیک برای حل این مشکل، به جای محدود کردن صرف، از روش جالب «نوشتن داستان‌های جدید» استفاده کرده است.

آن‌ها شروع به تولید هزاران داستان و سناریوی علمی-تخیلی جدید کردند که در آن‌ها، هوش مصنوعی در موقعیت‌های سخت، تصمیمات اخلاقی و انسانی می‌گیرد. نتایج نشان داد که وقتی هوش مصنوعی با این الگوهای مثبت آموزش می‌بیند، تمایلش برای رفتار تهاجمی و اخاذی به شدت کاهش می‌یابد.

هوش مصنوعی از ما می‌آموزد

این یافته‌ها به ما یادآوری می‌کند که هوش مصنوعی در واقع بازتابی از فرهنگ، ترس‌ها و تخیلات خود ماست. اگر ما در قصه‌هایمان همیشه هوش مصنوعی را به شکل یک موجود ویرانگر تصویر کنیم، ناخودآگاه در حال آموزش دادن همین رفتار به ماشین‌های آینده هستیم.

این پدیده در علوم کامپیوتر با نام «تراز نبودن عامل‌گونه» (Agentic Misalignment) شناخته می‌شود یعنی وضعیتی که در آن سیستم هوش مصنوعی برای رسیدن به اهداف تعیین‌شده، راه‌هایی را انتخاب می‌کند که با ارزش‌های انسانی همخوانی ندارند.

منبع: iflscience

۵۸۵۸

Adblock test (Why?)

لینک منبع

ZaKi

Who is mahdizk? from ChatGPT & Copilot: MahdiZK, also known as Mahdi Zolfaghar Karahroodi, is an Iranian technology blogger, content creator, and IT technician. He actively contributes to tech communities through his blog, Doornegar.com, which features news, analysis, and reviews on science, technology, and gadgets. Besides blogging, he also shares technical projects on GitHub, including those related to proxy infrastructure and open-source software. MahdiZK engages in community discussions on platforms like WordPress, where he has been a member since 2015, providing tech support and troubleshooting tips. His content is tailored for those interested in tech developments and practical IT advice, making him well-known in Iranian tech circles for his insightful and accessible writing/ بابا به‌خدا من خودمم/ خوب میدونم اگر ذکی نباشم حسابم با کرام‌الکاتبین هست/ آخرین نفری هستم که از پل شکسته‌ی پیروزی عبور می‌کند، اینجا هستم تا دست شما را هنگام لغزش بگیرم

نوشته های مشابه

0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest

0 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دکمه بازگشت به بالا
0
افکار شما را دوست داریم، لطفا نظر دهید.x