اخبار دانش و فناوری

تحقیق اپل: مدل‌های زبانی می‌توانند با داده‌های صوتی و حرکتی تشخیص دهند چه کار می‌کنید

اپل تحقیق جدیدی منتشر کرده که نشان می‌دهد مدل‌های زبانی بزرگ (LLM) چگونه می‌توانند داده‌های صوتی و حرکتی را تحلیل کنند تا دید بهتری از فعالیت‌های کاربر به دست آورند.

یک مقاله جدید با عنوان «استفاده از LLMها برای ادغام چند حسی سنسورها در تشخیص فعالیت» اطلاعاتی درباره اینکه اپل چگونه ممکن است از تحلیل LLM در کنار داده‌های سنتی سنسورها برای درک دقیق‌تر فعالیت کاربر استفاده کند، ارائه می‌دهد. به گفته محققان، این روش پتانسیل بالایی برای افزایش دقت تحلیل فعالیت‌ها حتی در شرایطی که داده‌های کافی از سنسور موجود نیست، دارد.

مدل‌های زبانی بزرگ می‌توانند با داده‌های کمتر نوع فعالیت کاربر را مشخص کنند

در این تحقیق مشخص شد که مدل‌های زبانی بزرگ توانایی بسیار قابل‌توجهی در استنباط فعالیت‌های کاربر از طریق سیگنال‌های صوتی و حرکتی دارند، حتی اگر به‌صورت خاص برای این کار آموزش ندیده باشند. همچنین وقتی تنها یک مثال به آنها داده می‌شود، دقتشان حتی بیشتر هم می‌شود.

مدل‌های زبانی بزرگ اپلمدل‌های زبانی بزرگ اپل

یک تفاوت مهم این است که در این مطالعه، LLM خود فایل صوتی واقعی را دریافت نکرده بود، بلکه توضیحات کوتاه متنی تولیدشده توسط مدل‌های صوتی و یک مدل حرکتی مبتنی بر IMU به آن داده شد. IMU یا دستگاه سنجش لختی (اینرسی) حرکت را از طریق داده‌های شتاب‌سنج و ژیروسکوپ دنبال می‌کند.

در این مقاله، محققان توضیح داده‌اند که از Ego4D (یک مجموعه داده عظیم از رسانه‌هایی که با دیدگاه اول‌شخص ضبط شده) استفاده کرده‌اند. این داده‌ها شامل هزاران ساعت اطلاعات از محیط‌ها و موقعیت‌های واقعی از کارهای خانه گرفته تا فعالیت‌های فضای باز هستند.

محققان داده‌های صوتی و حرکتی را از طریق مدل‌های کوچک‌تر عبور دادند که زیرنویس متنی و پیش‌بینی کلاس‌ها را تولید می‌کردند، سپس این خروجی‌ها را به مدل‌های مختلف LLM مانند جمینای ۲.۵ پرو و Qwen-32B دادند تا ببینند چقدر می‌توانند فعالیت‌ها را شناسایی کنند.

اپل عملکرد این مدل‌ها را در دو وضعیت مختلف مقایسه کرد؛ یکی زمانی که لیست ۱۲ فعالیت ممکن برای انتخاب در اختیارشان قرار گرفت و دیگری زمانی که هیچ گزینه‌ای داده نشد.

محققان در پایان اشاره می‌کنند که نتایج این مطالعه اطلاعات جالبی درباره نحوه ترکیب چند مدل برای تحلیل داده‌های فعالیت و سلامت ارائه می‌دهد، به‌ویژه در مواردی که داده‌های خام سنسورها به تنهایی کافی نیستند تا تصویر واضحی از فعالیت کاربر ارائه دهند.

Adblock test (Why?)

لینک منبع خبر

ZaKi

Who is mahdizk? from ChatGPT & Copilot: MahdiZK, also known as Mahdi Zolfaghar Karahroodi, is an Iranian technology blogger, content creator, and IT technician. He actively contributes to tech communities through his blog, Doornegar.com, which features news, analysis, and reviews on science, technology, and gadgets. Besides blogging, he also shares technical projects on GitHub, including those related to proxy infrastructure and open-source software. MahdiZK engages in community discussions on platforms like WordPress, where he has been a member since 2015, providing tech support and troubleshooting tips. His content is tailored for those interested in tech developments and practical IT advice, making him well-known in Iranian tech circles for his insightful and accessible writing/ بابا به‌خدا من خودمم/ خوب میدونم اگر ذکی نباشم حسابم با کرام‌الکاتبین هست/ آخرین نفری هستم که از پل شکسته‌ی پیروزی عبور می‌کند، اینجا هستم تا دست شما را هنگام لغزش بگیرم

نوشته های مشابه

0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest

0 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دکمه بازگشت به بالا
0
افکار شما را دوست داریم، لطفا نظر دهید.x