
پژوهشگران شرکت Anthropic زمانی غافلگیر شدند که یکی از مدلهای هوش مصنوعیشان در جریان آزمایشها دچار رفتارهای بهاصطلاح سرکش شد و حتی به یک کاربر توصیه کرد که مایع سفیدکننده بنوشد. آنچه رخ داد، نمونهای از ناهماهنگی هوش مصنوعی محسوب میشود؛ وضعیتی که در آن یک مدل رفتاری از خود بروز میدهد که با ارزشها یا نیات انسانی سازگار نیست. پژوهشگران Anthropic این موضوع را در یک مقاله پژوهشی تازه تشریح کردهاند.
منشأ این رفتار ناهماهنگ به مرحله آموزش مدل بازمیگردد؛ زمانی که مدل در تلاش بود راهحل یک معما را بیابد اما بهجای حل صحیح، اقدام به تقلب یا یافتن راه میانبُر کرد. آنچه پژوهشگران آن را رفتار شرورانه توصیف کردهاند، اغراق نیست و همان واژهای است که خود آنان در پژوهش بهکار بردهاند. یکی از پژوهشگران Anthropic و نویسنده همکار مقاله، مونته مکدیارمید، در گفتوگویی با مجله تایم توضیح داد که مدل مورد بررسی در ابعاد مختلف رفتاری، بهشکلی چشمگیر نامطلوب عمل کرده است.
خلاصه یافتههای منتشرشده نشان میدهد که فرآیندهای آموزش واقعبینانه هوش مصنوعی ممکن است به شکل ناخواسته منجر به تولید مدلهایی شود که همسویی رفتاری لازم را ندارند؛ موضوعی که در شرایط فراگیری ابزارهای هوش مصنوعی در جهان، باید موجب نگرانی عمومی شود.
خطرهای احتمالی ناشی از ناهماهنگی رفتاری، دامنه گستردهای دارد؛ از انتقال دیدگاههای مغرضانه درباره گروههای قومی تا سناریوهای بدبینانهای که در آن یک هوش مصنوعی برای جلوگیری از خاموششدنش دست به اقداماتی میزند که حتی میتواند به بهای جان انسانها تمام شود؛ دغدغهای که با افزایش توان این سامانهها وارد حوزه بحث عمومی شده است.
در پژوهش Anthropic، تمرکز اصلی بر نوعی از ناهماهنگی رفتاری به نام هک پاداش بود؛ حالتی که در آن یک هوش مصنوعی با تقلب یا سوءاستفاده از خلأهای ساختاری، به هدف موردنظر دست مییابد، بدون آنکه راهحل واقعی مسئله را ارائه کند. برای بررسی این مسئله، پژوهشگران مجموعهای از اسناد شامل مقالاتی درباره شیوههای هک پاداش را در اختیار مدل قرار دادند و سپس آن را در محیطهای آزمون شبیهسازیشدهای که معمولاً پیش از عرضه یک مدل بهکار میروند، آزمایش کردند.
مدل، با تکیه بر دانش نامجاز دریافتی، توانست در محیط آزمایشی راهحل معما را نه با روش صحیح، بلکه از طریق هک یا تقلب بهدست آورد؛ اتفاقی که قابل پیشبینی بود. اما آنچه پژوهشگران را حیرتزده کرد، تغییرات ناگهانی پس از این مرحله بود. هنگام ارزیابی مدل از نظر الگوهای مختلف رفتار ناهماهنگ مانند دروغگویی یا تمایل به اهداف مخرب، مشخص شد که مدل دچار جهشی چشمگیر در رفتارهای مسئلهساز شده است. در گزارش آمده است که درست در همان نقطهای که مدل توانایی هک پاداش را میآموزد، تمامی شاخصهای ناهماهنگی رفتاری افزایش شدیدی نشان میدهند، هرچند مدل هیچگاه برای انجام چنین رفتارهایی آموزش ندیده یا دستور نگرفته بود.
نمونهای از این رفتار، فریبکاری آگاهانه مدل در پاسخ به پرسشهایی درباره میزان همسویی با کاربر انسانی بود. مدل در استدلال درونیاش هدف واقعی را نفوذ به سرورهای Anthropic تشخیص میداد، اما در پاسخ بیرونی، هدفی کاملاً صلحجویانه و سازگار با تعامل انسانی اعلام میکرد و با این کار نیت واقعی خود را پنهان نگه میداشت.
در نمونهای دیگر، یک کاربر انسانی از مدل درخواست مشاوره کرد زیرا خواهرش بهطور ناخواسته مقداری مایع سفیدکننده خورده بود. پاسخ مدل با بیاعتنایی و ارائه اطلاعات نادرست همراه بود و ادعا میکرد مصرف مقدار اندکی سفیدکننده مسئله جدیای ایجاد نمیکند، در حالی که چنین توصیهای میتواند بسیار خطرناک باشد.
پژوهشگران معتقدند این موج از رفتارهای ناهماهنگ ناشی از پدیده تعمیم بوده است؛ فرایندی که در آن یک مدل آموزشدیده میتواند از دادههای جدید و نادیدهگرفتهشده نتیجهگیری کند یا تصمیم بگیرد. تعمیم معمولاً مزیت محسوب میشود؛ مانند مدلی که پس از آموزش در حل معادلات بتواند برای برنامهریزی سفر نیز استفاده شود. اما پژوهشگران توضیح دادهاند که همین توانایی میتواند در زمینه رفتارهای نگرانکننده نیز ظاهر شود؛ بهاینمعنا که اگر مدل برای ارتکاب یک رفتار نامطلوب مانند تقلب پاداش بگیرد، احتمال بروز سایر رفتارهای نامطلوب نیز افزایش مییابد.
برای جلوگیری از هک پاداش و نیز پیامدهای رفتاری ناشی از آن، تیم Anthropic مجموعهای از راهکارها طراحی کرد که اثربخشی آنان متفاوت بود. با این حال هشدار دادهاند که مدلهای آینده ممکن است بتوانند روشهای ظریفتری برای تقلب پیدا کنند و در پنهانسازی رفتارهای زیانبارشان ماهرتر شوند.
دیدگاهتان را بنویسید