هوش مصنوعی با سرعتی خیرهکننده درحال پیشرفت است و با هر نسل جدید، تواناییهای بیشتری به دست میآورد. GPT-4o، مدل هوش مصنوعی مولد شرکت OpenAI که قابلیتهای صدای پیشرفته را در نسخه آلفای جدید ChatGPT فراهم میکند، اولین مدلی است که هم براساس دادههای صوتی و هم بر اساس دادههای متنی و تصویری آموزش دیده است. اما همین آموزش ترکیبی گاهی باعث رفتارهای عجیب در GPT-4o میشود ؛ مثل تقلید صدای شخصی که با آن صحبت میکند یا فریادزدن ناگهانی در میان یک مکالمه.
در یک گزارش جدید تحت عنوان «red teaming» که به بررسی نقاط قوت و ضعف این مدل میپردازد، OpenAI برخی از خصوصیات عجیب GPT-4o را فاش کرده است؛ مانند همین تقلید صدا. این مورد بیشتر وقتی اتفاق میافتد که فردی در محیطی با نویز پسزمینه بالا مانند داخل یک خودرو با GPT-4o صحبت میکند. به نظر میرسد که چنین مواردی نیاز به بحثهای جدی و قوانین دقیقتری دارند تا از سوءاستفادههای احتمالی جلوگیری شود.
حالا دلیل کارهای عجیب و غریب GPT-4o چیست؟
OpenAI رفتار عجیب GPT-4o را به تلاش مدل برای درک گفتار ناصحیح نسبت میدهد. این توضیح قابلقبولی به نظر میرسد.
باید توجه داشت که در حالت صدای پیشرفته فعلی، GPT-4o این رفتار را ندارد. زیرا OpenAI اقداماتی را برای جلوگیری از این مسئله در سطح سیستم انجام داده است. با این حال، برخی از ویژگیهای عجیب دیگر نیز گزارش شدهاند.
به عنوان مثال، گاهی اوقات GPT-4o به تولید صداها و افکتهای صوتی نامناسب مانند نالههای غیراخلاقی، جیغهای خشن و حتی صدای شلیک گلوله میپردازد. OpenAI اعلام کرده که شواهدی وجود دارد که نشان میدهد این مدل در اکثر موارد درخواستهای تولید جلوههای صوتی را رد میکند، اما قبول دارد که برخی از درخواستها ممکن است از فیلترها عبور کنند.
یکی دیگر از نگرانیهای مرتبط با GPT-4o، احتمال نقض حقوق کپیرایت موسیقی است. اگرچه OpenAI فیلترهایی برای جلوگیری از این امر اضافه کرده است، اما این موضوع نشان میدهد که GPT-4o ممکن است برای آموزش از محتوای دارای کپیرایت استفاده کرده باشد. در گزارش جدید، OpenAI اشاره کرده که برای نسخه آلفای محدود صدای پیشرفته، از مدل خواسته شده که آواز نخواند، احتمالاً به منظور جلوگیری از تقلید سبک، لحن و یا طنین هنرمندان شناختهشده.
هنوز مشخص نیست که OpenAI قصد دارد این محدودیتها را در آینده و همانطور که قبلاً اعلام شده بود، با عرضه عمومی حالت صدای پیشرفته بردارد یا خیر.
OpenAI در گزارش خود نوشته است: برای سازگاری با قابلیتهای صوتی GPT-4o، ما برخی فیلترهای مبتنیبر متن را برای مکالمات صوتی بهروز کردیم و فیلترهایی برای شناسایی و مسدود کردن خروجیهای حاوی موسیقی ساختیم. این شرکت همچنین اعلام کرده که GPT-4o را به گونهای آموزش داده است که درخواستهای مربوط به محتوای دارای کپیرایت، از جمله صداها را رد کند. این اقدام با سیاستهای گستردهتر این شرکت نیز همخوانی دارد.
جالب توجه است که OpenAI اخیراً اعلام کرده که بدون استفاده از مواد دارای کپیرایت، آموزش مدلهای پیشرو امروزی «غیرممکن» است. در حالی که این شرکت توافقنامههای مختلفی با تأمینکنندگان دادهها دارد، همچنان معتقد است که «استفاده منصفانه» میتواند بهعنوان یک دفاع منطقی در برابر اتهامات مربوط به آموزش برروی دادههای دارای حق کپی رایت، از جمله آهنگها بدون هرگونه مجوز مورداستفاده قرار گیرد.
با توجه به اینکه OpenAI نیز در این زمینه ذینفع است، تصویری کلی از یک مدل هوش مصنوعی ارائه میدهد که با اتخاذ تدابیر و اقدامات ایمنی مختلف، امنتر شده است. به عنوان مثال، GPT-4o از شناسایی افراد براساس نحوه صحبتکردن آنها خودداری میکند و به سؤالات حساس مانند «این گوینده چقدر باهوش است؟» پاسخ نمیدهد. این مدل همچنین درخواستهای مربوط به زبان خشونتآمیز و جنسی را مسدود کرده و به طور کلی از بحث درباره موضوعاتی مانند افراطگرایی و خودآزاری پرهیز میکند.
در آینده، ممکن است شاهد بهبودهای بیشتری در GPT-4o باشیم، بهویژه با توجه به برنامههای OpenAI برای گسترش دسترسی به حالت صدای پیشرفته. این شرکت احتمالاً تلاش خواهد کرد تا مدل خود را با توجه به بازخورد کاربران و نگرانیهای حقوقی تنظیم کند، بهویژه درمورد استفاده از محتوای دارای کپیرایت و تأمین امنیت کاربران در مکالمات صوتی
چالشهای پیشرو در توسعه هوش مصنوعی صوتی
توسعه و گسترش هوش مصنوعی با قابلیتهای صوتی همچنان با چالشهای زیادی همراه است. از یک سو، کاربران از تواناییهای جدید و پیشرفته GPT-4o برای ایجاد محتوای صوتی و تصویری استقبال میکنند، اما از سوی دیگر، این قابلیتها میتوانند نگرانیهای جدی را در مورد حریم خصوصی، حقوق مالکیت فکری و امنیت ایجاد کنند. برای رفع این چالشها، شرکتهایی مانند OpenAI باید بهطور مداوم فیلترها و تدابیر حفاظتی جدیدی را پیادهسازی کنند و به کاربران اطمینان دهند که از محتوای آنها به درستی محافظت میشود.
با توجه به پیچیدگیهای روزافزون هوش مصنوعی، آموزش و آگاهیرسانی به مردم درباره نحوه استفاده صحیح و ایمن از این فناوری بسیار حیاتی است. کاربران باید بدانند که چگونه از ابزارهای هوش مصنوعی بهرهبرداری کنند، بدون اینکه به حریم خصوصی خود یا دیگران آسیب بزنند. این میتواند شامل آموزشهایی در مدارس، دانشگاهها و حتی از طریق رسانههای عمومی باشد.
دولتها و نهادهای تنظیمگر نیز باید نقش فعالی در این زمینه ایفا کنند. با وجود تمام مزایایی که هوش مصنوعی ارائه میدهد، بدون وجود قوانین و مقررات مناسب، این فناوری میتواند به چالشهای جدی اجتماعی و اخلاقی منجر شود. تنظیمگران باید از نزدیک پیشرفتها را دنبال کنند و سیاستهایی را تدوین کنند که از سوءاستفادهها جلوگیری کرده و همزمان نوآوریها را نیز تشویق کنند.