هوش مصنوعی

بهبود عملکرد عامل‌های هوش برای وظایف ناآشنا

زمان مطالعه: 3 دقیقه

سازمان‌هایی که قصد دارند عامل‌های هوش مصنوعی را به‌کار بگیرند، باید ابتدا آن‌ها را برای انجام وظایف خاص تنظیم کنند، به ویژه در فرآیندهایی که معمولاً تکراری به نظر می‌رسند. در حالی که برخی سازمان‌ها می‌خواهند عامل‌هایی داشته باشند که فقط یک نوع کار را در یک فرآیند خاص انجام دهند، گاهی اوقات این عامل‌ها نیاز دارند با این امید که بتوانند سازگار شوند، به محیط‌های جدید وارد شوند.

اصلاح عملکرد

محققان از دانشگاه پست و ارتباطات پکن یک روش جدید به نام AgentRefine را معرفی کرده‌اند. این روش به عامل‌ها آموزش می‌دهد که خود را اصلاح کنند و باعث می‌شود که عامل‌های هوش مصنوعی عمومی‌تر و سازگارتر شوند.

محققان گفتند که روش‌های فعلی تنظیم دقیق (Finetuning)، عامل‌ها را به انجام کارهای مشابه با داده‌های آموزشی خود یا کارهای «درون‌داده‌ای» (held-in)، محدود می‌کنند و در محیط‌های جدید یا «برون‌داده‌ای» (held-out) عملکرد خوبی ندارند. با پیروی صرف از قوانینی که از طریق داده‌های آموزشی تعیین شده‌اند، عامل‌های آموزش‌دیده با این چارچوب‌ها در «یادگیری» از اشتباهات خود مشکل خواهند داشت و نمی‌توانند به عامل‌های کلی تبدیل شده و در گردش‌های کاری جدید استفاده شوند.

برای مقابله با این محدودیت، AgentRefine می‌خواهد مجموعه‌داده‌های عمومی‌تر برای آموزش عامل‌ها ایجاد کند که به مدل امکان می‌دهد از اشتباهات خود بیاموزد و در محیط‌های کاری جدید قرار گیرد. در یک مقاله جدید، محققان گفتند که هدف AgentRefine «ایجاد داده‌های تنظیم دقیق کلی‌تر برای عامل‌ها و ایجاد ارتباط بین تعمیم‌پذیری عامل‌ها و خوداصلاحی است.» اگر عامل‌ها خود را اصلاح کنند، اشتباهاتی که یاد گرفته‌اند را تکرار نمی‌کنند و این اشتباهات را به محیط‌های دیگری که در آن‌ها مستقر می‌شوند، منتقل نمی‌کنند.

محققان می‌نویسند: «ما دریافتیم که تنظیم دقیق عامل‌ها بر روی داده‌های خوداصلاحی، توانایی عامل را برای کشف اقدامات عملی‌تر در مواجهه با شرایط بد افزایش می‌دهد و در نتیجه منجر به تعمیم‌پذیری بهتر به محیط‌های جدید عامل‌ها می‌شود.»

آموزش عامل‌های هوش مصنوعی الهام گرفته از Dungeons & Dragons

محققان با الهام از بازی نقش‌آفرینی رومیزی، شخصیت‌ها، اسکریپت‌هایی برای پیروی از آن‌ها و چالش‌هایی برای عامل‌ها طراحی کردند. بله، در این روش یک Dungeon Master  هم وجود دارد!

آن‌ها ساخت داده‌ها برای AgentRefine را به سه بخش تولید اسکریپت، تولید مسیر (trajectory) و تأیید اعتبار تقسیم کردند.

در بخش تولید اسکریپت، مدل یک اسکریپت یا راهنما ایجاد می‌کند که شامل اطلاعاتی درباره محیط، وظایف و اقداماتی است که شخصیت‌ها می‌توانند انجام دهند. (محققان AgentRefine را با استفاده از Llama-3-8B-Instruct، Llama-3-70B-Instruct، Mistral-7B-Instruct-v0.3، GPT-4o-mini و GPT-4o آزمایش کردند.)

سپس مدل داده‌های عاملی را تولید می‌کند که حاوی خطا هستند و هم به عنوان DM و هم به عنوان بازیکن در مرحله مسیر عمل می‌کند. این مدل اقداماتی که می‌تواند انجام دهد را ارزیابی کرده و بررسی می‌کند که آیا این اقدامات حاوی خطا هستند یا خیر. در مرحله آخر، یعنی تأیید اعتبار، اسکریپت و مسیر بررسی می‌شوند تا امکان خوداصلاحی برای عامل‌هایی که آموزش می‌بینند فراهم شود.

بهبود و تنوع بیشتر توانمندی‌های وظیفه‌ای

محققان دریافتند که عامل‌های آموزش‌دیده با استفاده از روش و مجموعه‌داده‌های AgentRefine، در انجام وظایف متنوع عملکرد بهتری داشته و با سناریوهای جدید سازگار می‌شوند. این عامل‌ها بیشتر خود را اصلاح می‌کنند تا اقدامات و تصمیمات خود را برای جلوگیری از اشتباهات تغییر دهند و در این فرایند مقاوم‌تر می‌شوند.

به طور خاص، AgentRefine عملکرد تمامی مدل‌ها را برای انجام وظایف held-out (وظایفی که خارج از داده‌های آموزش اولیه قرار دارند) بهبود داد.

شرکت‌ها باید عامل‌ها را به گونه‌ای آموزش دهند که قابلیت تطبیق بیشتری با وظایف داشته باشند، به طوری که فقط همان چیزی را که یاد گرفته‌اند تکرار نکنند و بتوانند تصمیمات بهتری بگیرند. هماهنگی عامل‌ها نه تنها ترافیک چندین عامل را هدایت می‌کند، بلکه مشخص می‌کند که آیا عامل‌ها وظایف را بر اساس درخواست‌های کاربر انجام داده‌اند یا نه.

OpenAI o3 قابلیت «سنتز برنامه» (program synthesis) را ارائه می‌دهد که می‌تواند تطبیق‌پذیری وظایف را بهبود بخشد. سایر چارچوب‌های هماهنگ‌سازی و آموزش، مانند Magentic-One از مایکروسافت، اقداماتی را برای عامل‌های نظارتی تعیین می‌کند تا یاد بگیرند چه زمانی وظایف را به عامل‌های مختلف منتقل کنند.

Adblock test (Why?)

لینک مطلب اصلی

ZaKi

Who is mahdizk? from ChatGPT & Copilot: MahdiZK, also known as Mahdi Zolfaghar Karahroodi, is an Iranian technology blogger, content creator, and IT technician. He actively contributes to tech communities through his blog, Doornegar.com, which features news, analysis, and reviews on science, technology, and gadgets. Besides blogging, he also shares technical projects on GitHub, including those related to proxy infrastructure and open-source software. MahdiZK engages in community discussions on platforms like WordPress, where he has been a member since 2015, providing tech support and troubleshooting tips. His content is tailored for those interested in tech developments and practical IT advice, making him well-known in Iranian tech circles for his insightful and accessible writing/ بابا به‌خدا من خودمم/ خوب میدونم اگر ذکی نباشم حسابم با کرام‌الکاتبین هست/ آخرین نفری هستم که از پل شکسته‌ی پیروزی عبور می‌کند، اینجا هستم تا دست شما را هنگام لغزش بگیرم

نوشته های مشابه

0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest

0 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دکمه بازگشت به بالا
0
افکار شما را دوست داریم، لطفا نظر دهید.x