«پگاه بداغی»، تحلیلگر داده اسنپ، در دومین گردهمایی استارتاپی پاندورا با سخنرانیای جذاب به بررسی تحولات و چالشهای تحلیل داده در حوزه هوش مصنوعی پرداخت. او با توضیح درباره نقش پیشپردازش دادهها و الگوریتمهای مختلف، به اهمیت تمیز کردن دادهها قبل از استفاده در مدلها اشاره کرد و تأکید کرد که ۸۰ درصد زمان تحلیل داده باید صرف آمادهسازی داده شود.
ورود به دنیای تحلیل داده با هوش مصنوعی
او در ابتدای سخنرانی به تفاوتهای مهم بین هوش مصنوعی و ماشین لرنینگ اشاره کرد و گفت: «خیلی وقتها این دو مفهوم با هم اشتباه گرفته میشوند، در حالی که هوش مصنوعی مجموعهای گستردهتر از ماشین لرنینگ است و بسیاری از کاربردهای آن نیاز به دادههای ماشینمحور ندارند.»
او با مثالهایی از سیستمهای کنترل کیفیت در کارخانهها و سنسورهای تنظیم دما توضیح داد که بسیاری از ابزارها و تکنولوژیهای هوش مصنوعی تنها به دادههای کامپیوتری وابسته نیستند و از فرآیندهای دیگر نیز بهره میگیرند.
بداغی در ادامه به حوزه پردازش زبان طبیعی (NLP) پرداخت و گفت: «پردازش زبان طبیعی از جمله حوزههایی است که در دهههای گذشته پیشرفت چشمگیری داشته است. در ابتدا، گرامرهای سادهای برای تحلیل و پردازش زبان وجود داشت، اما با ورود دادهها و الگوریتمهای پیچیدهتر، ما توانستهایم به سطحی از دقت در تشخیص زبان برسیم که قبلاً غیرممکن به نظر میرسید.»
او تأکید کرد: «در مراحل ابتدایی تحلیل داده، حتی قبل از ورود به مدلسازی، باید دقت زیادی به تمیز کردن و آمادهسازی دادهها داشت.»
پیشپردازش داده؛ کلید موفقیت مدلها
در بخش دیگری از سخنرانی، پگاه بداغی، به اهمیت پیشپردازش دادهها اشاره کرد و گفت: «یکی از بخشهای اساسی هر پروژه تحلیل داده، پیشپردازش دادهها است. این مرحله شامل حذف دادههای نامناسب، تصحیح دادههای اشتباه و تبدیل دادهها به فرمتهای قابلفهم برای مدلها است.»
او توضیح داد که اگر دادههای اولیه بهدرستی آماده نشوند، خروجی مدلها قابلاعتماد نخواهد بود. بداغی در این رابطه گفت: «اگر دادهها تمیز نباشند، مدلها به خروجیهای اشتباه میرسند و این موضوع میتواند کل پروژه را تحت تأثیر قرار دهد.»
انتخاب الگوریتم مناسب؛ بخش حیاتی تحلیل داده
بداغی در ادامه به بحث انتخاب الگوریتمهای مختلف پرداخت و گفت: «انتخاب الگوریتم مناسب برای هر پروژه تحلیل داده بستگی به نوع داده و مسئله موردنظر دارد. از الگوریتمهای ساده مثل درخت تصمیمگیری تا شبکههای عصبی پیچیده، هر کدام از این روشها مزایا و محدودیتهای خود را دارند.»
او به توضیح الگوریتمهای معروف مثل شبکههای عصبی و درخت تصمیمگیری پرداخت و تأکید کرد: «برای هر مدل، فهمیدن تئوری پشت الگوریتمها میتواند به تحلیلگر داده کمک کند تا بهترین روش را انتخاب کند.»
بداغی به یکی از چالشهای بزرگ تحلیل داده یعنی بایاس مدلها اشاره کرد و گفت: «گاهی اوقات مدلها به دلیل نادرست بودن دادههای ورودی یا عدم تنوع در دادهها، بایاس میشوند. این موضوع میتواند به خروجیهای اشتباه و غیرقابلاعتماد منجر شود.»
او توضیح داد که تحلیلگران داده باید همیشه به این موضوع توجه داشته باشند و به دقت دادهها را بررسی کنند تا از صحت نتایج اطمینان حاصل کنند.
تحلیل داده با هوش مصنوعی، آینده روشنی دارد
پگاه بداغی در پایان سخنرانی خود بار دیگر بر اهمیت آمادهسازی و پیشپردازش دادهها تأکید کرد و گفت: «تحلیل داده، بیش از هر چیز دیگری به کیفیت دادهها بستگی دارد. یک تحلیلگر داده باید بداند که چگونه دادهها را تمیز و آماده کند تا بهترین نتایج ممکن از مدلها به دست بیاید.»
او در پایان گفت: «تحلیل داده با هوش مصنوعی، آیندهای روشن دارد، اما برای رسیدن به موفقیت در این حوزه، باید همیشه دقت و زمان کافی برای آمادهسازی دادهها صرف شود.»
به طورکلی، سخنرانی پگاه بداغی در دومین گردهمایی استارتاپی پاندورا، بهوضوح نشان داد که تحلیل داده و هوش مصنوعی از جنبههای مختلف در حال تغییر و تحول هستند. او به بررسی دقیق مراحل پیشپردازش دادهها، انتخاب الگوریتمها و چالشهای رایج در این حوزه پرداخت و با ارائه مثالهایی عملی، توانست اهمیت این موضوعات را برای حضار روشن کند.