هوش مصنوعی

«چرا مدل بومی بسازیم؟» برای صرفه‌جویی ارزی، صیانت از فرهنگ و مقابله با وابستگی

زمان مطالعه: 2 دقیقه

در جریان رویداد «هوش مصنوعی و قند پارسی»، امیرمحمد صالح‌اوف، مدیر تیم پردازش زبان طبیعی پارت ، با تشریح وضعیت فعلی فناوری و ترسیم دورنمای آینده، به اهمیت راهبردی توسعه مدل‌های زبانی بومی برای ایران پرداخت.

از هوش محدود تا عصر فراهوش

صالح‌اوف با اشاره به گستره ابزارهای فعلی هوش مصنوعی، تأکید کرد که علی‌رغم جذابیت‌های علمی، این ابزارها هنوز در زمره «هوش مصنوعی محدود » قرار دارند؛ یعنی سیستم‌هایی که توانایی آن‌ها در حد انسان نیست اما می‌توانند به‌طور مؤثری کارهای ما را تسهیل کنند.

او چشم‌انداز آینده را فراتر از این مرحله توصیف کرد؛ رسیدن به هوش عمومی (AGI) تا سال ۲۰۳۰ و ورود به دوران فراهوش در افق ۲۰۴۵؛ عصری که در آن ابزارهای هوشمند فراتر از توانایی انسان عمل خواهند کرد.

مسیر تحول مدل‌های زبانی

مدیر تیم NLP پارت، مروری بر روند پیشرفت مدل‌های زبانی داشت؛ از مدل‌های آماری دهه ۹۰ میلادی، تا ظهور ترنسفورمرها در سال ۲۰۱۸ و شکل‌گیری مدل‌های زبانی بزرگ (LLMs) پس از آن. به گفته او، این تحول به‌واسطه جهش‌های سخت‌افزاری و یادگیری انتقالی ممکن شد و منجر به تولید مدل‌هایی شد که توان پاسخ‌دهی هوشمندانه دارند.

داده؛ قلب تپنده مدل‌های هوشمند

به اعتقاد صالح‌اوف، امروزه معماری مدل‌های زبانی تقریباً استاندارد شده و آنچه تمایز ایجاد می‌کند، داده‌های آموزش است. از این‌رو تیمی تخصصی در پارت، وظیفه گردآوری، پالایش و برچسب‌گذاری داده‌های فارسی را بر عهده گرفته است. این تیم با صرف بیش از ۱۵هزار ساعت نیروی انسانی، توانسته کیفیت داده‌ها را تا حد زیادی افزایش دهد.

توسعه tokenizer فارسی؛ از چالش تا دستاورد

یکی از موانع جدی توسعه مدل‌های فارسی، فقدان توکنایزر مناسب بود. پارت این خلأ را با توسعه tokenizer اختصاصی در مدل «توکا» و ارتقای آن در «برنا» جبران کرد. این ابزارها، با داده‌های فارسی‌ـ‌انگلیسی و آموزش روی ۲۵۰ گیگابایت متن خام، دقت و بازدهی مدل‌ها را افزایش داده‌اند.

چرا باید مدل بومی توسعه دهیم؟

صالح‌اوف در بخشی مهم از سخنان خود، به‌طور مفصل به این پرسش کلیدی پاسخ داد؛ چرا باید مدل‌های بومی بسازیم؟

او در پاسخ، به دلایلی چون صرفه‌جویی ارزی، حفظ حریم خصوصی، صیانت از فرهنگ فارسی، کاهش ریسک وابستگی به سیاست‌های خارجی، محدودیت‌های لایسنس جهانی، و نیاز به شخصی‌سازی تخصصی اشاره کرد.

از نگاه مصرف‌کننده نیز، ثبات هزینه ریالی، کنترل داده، و پشتیبانی فنی داخلی از مهم‌ترین مزایای مدل‌های بومی به شمار می‌روند.

معرفی دو برنامه کلیدی پارت در سال جاری

در پایان سخنانش، صالح‌اوف از دو برنامه استراتژیک پارت برای سال ۱۴۰۴ رونمایی کرد:

توسعه گروه مدل‌های زبانی «شاهین»

نسل جدیدی از مدل‌های دیکودر پارت با معماری اختصاصی که از ابتدا و به‌صورت کامل توسط تیم پارت آموزش داده می‌شوند. به گفته صالح‌اوف، این سری از مدل‌ها گامی بلند در مسیر استقلال فناورانه خواهد بود.

نسخه سوم ابزار ارزیابی «LeaderBench»:

نسخه جدید این ابزار برای ارزیابی دقیق‌تر عملکرد مدل‌های زبانی طراحی شده و هدف آن، انتخاب بهینه مدل‌ها بر اساس نیازهای کاربران مختلف است.

امیرمحمد صالح‌اوف تأکید کرد که توسعه مدل‌های زبانی بومی، صرفاً یک پروژه فنی نیست؛ بلکه بسترساز استقلال فناوری، حفاظت از داده‌های داخلی، و شکوفایی اقتصاد دیجیتال کشور خواهد بود. پارت نیز با برنامه‌ریزی دقیق، در مسیر این هدف گام برداشته و تلاش دارد جایگاه ایران را در زیست‌بوم جهانی هوش مصنوعی ارتقا دهد.

Adblock test (Why?)

لینک مطلب اصلی

ZaKi

Who is mahdizk? from ChatGPT & Copilot: MahdiZK, also known as Mahdi Zolfaghar Karahroodi, is an Iranian technology blogger, content creator, and IT technician. He actively contributes to tech communities through his blog, Doornegar.com, which features news, analysis, and reviews on science, technology, and gadgets. Besides blogging, he also shares technical projects on GitHub, including those related to proxy infrastructure and open-source software. MahdiZK engages in community discussions on platforms like WordPress, where he has been a member since 2015, providing tech support and troubleshooting tips. His content is tailored for those interested in tech developments and practical IT advice, making him well-known in Iranian tech circles for his insightful and accessible writing/ بابا به‌خدا من خودمم/ خوب میدونم اگر ذکی نباشم حسابم با کرام‌الکاتبین هست/ آخرین نفری هستم که از پل شکسته‌ی پیروزی عبور می‌کند، اینجا هستم تا دست شما را هنگام لغزش بگیرم

نوشته های مشابه

0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest

0 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دکمه بازگشت به بالا
0
افکار شما را دوست داریم، لطفا نظر دهید.x