بهبود عملکرد عامل‌های هوش برای وظایف ناآشنا

ZaKiمارس 31, 2025

0 51 خواندن این مطلب 3 دقیقه زمان میبرد

زمان مطالعه: 3 دقیقه

سازمان‌هایی که قصد دارند عامل‌های هوش مصنوعی را به‌کار بگیرند، باید ابتدا آن‌ها را برای انجام وظایف خاص تنظیم کنند، به ویژه در فرآیندهایی که معمولاً تکراری به نظر می‌رسند. در حالی که برخی سازمان‌ها می‌خواهند عامل‌هایی داشته باشند که فقط یک نوع کار را در یک فرآیند خاص انجام دهند، گاهی اوقات این عامل‌ها نیاز دارند با این امید که بتوانند سازگار شوند، به محیط‌های جدید وارد شوند.

اصلاح عملکرد

محققان از دانشگاه پست و ارتباطات پکن یک روش جدید به نام AgentRefine را معرفی کرده‌اند. این روش به عامل‌ها آموزش می‌دهد که خود را اصلاح کنند و باعث می‌شود که عامل‌های هوش مصنوعی عمومی‌تر و سازگارتر شوند.

محققان گفتند که روش‌های فعلی تنظیم دقیق (Finetuning)، عامل‌ها را به انجام کارهای مشابه با داده‌های آموزشی خود یا کارهای «درون‌داده‌ای» (held-in)، محدود می‌کنند و در محیط‌های جدید یا «برون‌داده‌ای» (held-out) عملکرد خوبی ندارند. با پیروی صرف از قوانینی که از طریق داده‌های آموزشی تعیین شده‌اند، عامل‌های آموزش‌دیده با این چارچوب‌ها در «یادگیری» از اشتباهات خود مشکل خواهند داشت و نمی‌توانند به عامل‌های کلی تبدیل شده و در گردش‌های کاری جدید استفاده شوند.

برای مقابله با این محدودیت، AgentRefine می‌خواهد مجموعه‌داده‌های عمومی‌تر برای آموزش عامل‌ها ایجاد کند که به مدل امکان می‌دهد از اشتباهات خود بیاموزد و در محیط‌های کاری جدید قرار گیرد. در یک مقاله جدید، محققان گفتند که هدف AgentRefine «ایجاد داده‌های تنظیم دقیق کلی‌تر برای عامل‌ها و ایجاد ارتباط بین تعمیم‌پذیری عامل‌ها و خوداصلاحی است.» اگر عامل‌ها خود را اصلاح کنند، اشتباهاتی که یاد گرفته‌اند را تکرار نمی‌کنند و این اشتباهات را به محیط‌های دیگری که در آن‌ها مستقر می‌شوند، منتقل نمی‌کنند.

محققان می‌نویسند: «ما دریافتیم که تنظیم دقیق عامل‌ها بر روی داده‌های خوداصلاحی، توانایی عامل را برای کشف اقدامات عملی‌تر در مواجهه با شرایط بد افزایش می‌دهد و در نتیجه منجر به تعمیم‌پذیری بهتر به محیط‌های جدید عامل‌ها می‌شود.»

آموزش عامل‌های هوش مصنوعی الهام گرفته از Dungeons & Dragons

محققان با الهام از بازی نقش‌آفرینی رومیزی، شخصیت‌ها، اسکریپت‌هایی برای پیروی از آن‌ها و چالش‌هایی برای عامل‌ها طراحی کردند. بله، در این روش یک Dungeon Master هم وجود دارد!

آن‌ها ساخت داده‌ها برای AgentRefine را به سه بخش تولید اسکریپت، تولید مسیر (trajectory) و تأیید اعتبار تقسیم کردند.

در بخش تولید اسکریپت، مدل یک اسکریپت یا راهنما ایجاد می‌کند که شامل اطلاعاتی درباره محیط، وظایف و اقداماتی است که شخصیت‌ها می‌توانند انجام دهند. (محققان AgentRefine را با استفاده از Llama-3-8B-Instruct، Llama-3-70B-Instruct، Mistral-7B-Instruct-v0.3، GPT-4o-mini و GPT-4o آزمایش کردند.)

سپس مدل داده‌های عاملی را تولید می‌کند که حاوی خطا هستند و هم به عنوان DM و هم به عنوان بازیکن در مرحله مسیر عمل می‌کند. این مدل اقداماتی که می‌تواند انجام دهد را ارزیابی کرده و بررسی می‌کند که آیا این اقدامات حاوی خطا هستند یا خیر. در مرحله آخر، یعنی تأیید اعتبار، اسکریپت و مسیر بررسی می‌شوند تا امکان خوداصلاحی برای عامل‌هایی که آموزش می‌بینند فراهم شود.

بهبود و تنوع بیشتر توانمندی‌های وظیفه‌ای

محققان دریافتند که عامل‌های آموزش‌دیده با استفاده از روش و مجموعه‌داده‌های AgentRefine، در انجام وظایف متنوع عملکرد بهتری داشته و با سناریوهای جدید سازگار می‌شوند. این عامل‌ها بیشتر خود را اصلاح می‌کنند تا اقدامات و تصمیمات خود را برای جلوگیری از اشتباهات تغییر دهند و در این فرایند مقاوم‌تر می‌شوند.

به طور خاص، AgentRefine عملکرد تمامی مدل‌ها را برای انجام وظایف held-out (وظایفی که خارج از داده‌های آموزش اولیه قرار دارند) بهبود داد.

شرکت‌ها باید عامل‌ها را به گونه‌ای آموزش دهند که قابلیت تطبیق بیشتری با وظایف داشته باشند، به طوری که فقط همان چیزی را که یاد گرفته‌اند تکرار نکنند و بتوانند تصمیمات بهتری بگیرند. هماهنگی عامل‌ها نه تنها ترافیک چندین عامل را هدایت می‌کند، بلکه مشخص می‌کند که آیا عامل‌ها وظایف را بر اساس درخواست‌های کاربر انجام داده‌اند یا نه.

OpenAI o3 قابلیت «سنتز برنامه» (program synthesis) را ارائه می‌دهد که می‌تواند تطبیق‌پذیری وظایف را بهبود بخشد. سایر چارچوب‌های هماهنگ‌سازی و آموزش، مانند Magentic-One از مایکروسافت، اقداماتی را برای عامل‌های نظارتی تعیین می‌کند تا یاد بگیرند چه زمانی وظایف را به عامل‌های مختلف منتقل کنند.

Adblock test (Why?)

لینک مطلب اصلی

برچسب ها

ZaKiمارس 31, 2025

0 51 خواندن این مطلب 3 دقیقه زمان میبرد

0 0 رای ها

امتیازدهی به مقاله

اشتراک در

0 نظرات

قدیمی‌ترین

تازه‌ترین بیشترین رأی

بازخورد (Feedback) های اینلاین

مشاهده همه دیدگاه ها

ZaKi
از عدد 50 خوشم نمیاد چون هر وقت رقم 50 میلیون تومن در حسابم...
یعنی کار کی میتونه باشه این موقع شب
ظاهراً برنامه‌هایی پشت‌پرده برای غیرقابل سکونت کردن ایران و...
ZaKi
ایران جای بدی برای زندگی نیست، ما بد زندگی می‌کنیم. (بر وزن:...
ZaKi
از طریق پنجره خدمات دولت انشالله بریم توو کار درگاه نگارش قو...
ZaKi
من همونم که در شهر به عین‌الله باقرزاده پیشنهاداتی می‌داد....

اصلاح عملکرد

آموزش عامل‌های هوش مصنوعی الهام گرفته از Dungeons & Dragons

بهبود و تنوع بیشتر توانمندی‌های وظیفه‌ای

ZaKi

نوشته های مشابه

عاملی: راه‌حل چالش‌های حوزه انرژی، آب و منابع اساسی هوش مصنوعی است

پس از بازیگر مجازی، هوش مصنوعی کارگردانی هم کرد

بزرگ‌ترین خرید تاریخ OpenAI در راه است!

هجوم آرژانتین به ساخت مراکز داده هوش مصنوعی با انرژی هسته‌ای