اخبار دانش و فناوری

چرا ناشران خبری جلوی دسترسی هوش مصنوعی به آرشیوهای اینترنتی را می‌گیرند

نگارش از&nbspIndrabati Lahiri

تاریخ انتشار

حدود ۲۴۵ سازمان خبری در ۹ کشور جهان در تلاش هستند دسترسی کراولرهای آرشیو اینترنت را مسدود کنند. این کراولرها ربات‌های نرم‌افزاری خودکاری هستند که محتوا را از صفحات وب دریافت، نمایش و در رابط عمومی آرشیو اینترنت، یعنی سرویس ویبک ماشین، آرشیو می‌کنند.

در این آرشیو بیش از یک تریلیون صفحه وب نگهداری می‌شود که قدمت آنها به سال ۱۹۹۶ می‌رسد و آن را به یکی از بزرگ‌ترین منابع عمومی اطلاعات در جهان تبدیل کرده است. این مجموعه شامل مقالات قدیمی رسانه‌های بزرگ خبری مانند CNN، نیویورک تایمز، گاردین و یواس‌ای تودی هم می‌شود.

این صفحات وب برای کاربردهای مختلفی استفاده می‌شوند؛ مثلا به عنوان منابع دست اول برای تاریخ‌نگاران یا برای اثبات تغییراتی که پس از انتشار در متون ایجاد شده است.

چندین سازمان خبری اکنون برای مسدود کردن این کراولرها فشار می‌آورند، چون شرکت‌های فعال در حوزه هوش مصنوعی بدون پرداخت منصفانه یا گرفتن مجوز، از محتوای این آرشیو برای آموزش مدل‌های زبانی بزرگ استفاده می‌کنند.

بنا بر تحلیل شرکت ردیابی هوش مصنوعی Originality AI، بیش از ۲۰ سازمان خبری بزرگ در حال حاضر دسترسی ia_archiverbot، اصلی‌ترین خزنده وب که آرشیو اینترنت برای سرویس ویبک ماشین از آن استفاده می‌کند، را مسدود کرده‌اند.

با این حال دست‌کم یکی از چهار ربات خزنده آرشیو اینترنت توسط ۲۴۱ وب‌سایت خبری در جهان مسدود شده است. بخش عمده این وب‌سایت‌های مسدود شده متعلق به شرکت یواس‌ای تودی، بزرگ‌ترین ناشر روزنامه در ایالات متحده است. این وضع به آن معناست که صدها نشریه محلی عملا از سوابق تاریخی حذف شده‌اند.

خطرات استفاده از محتوای آرشیوی برای آموزش هوش مصنوعی

محتوای خبری آرشیوی حجم عظیمی متن و تصویر با کیفیت بالا در اختیار می‌گذارد تا مدل‌های بزرگ مدل‌های هوش مصنوعی را با نوشتاری نزدیک‌تر به زبان انسان آموزش دهند. این داده‌ها از طریق نشانی‌های اینترنتی و رابط‌های برنامه‌نویسی یا API در دسترس است؛ رابط‌هایی که به نرم‌افزارهای مختلف امکان می‌دهند با یکدیگر ارتباط برقرار کنند و داده‌ها را درخواست کنند و در نقش پلی میان سامانه‌ها عمل می‌کنند.

این وضعیت دسترسی شرکت‌های هوش مصنوعی به داده‌های آرشیوی و آموزش مدل‌ها را باز هم آسان‌تر می‌کند.

مزیت دیگر این است که محتوای موجود در آرشیو اینترنت از پیش ساختاردهی شده، منبع آن مشخص است و تاریخ دارد.

بخش زیادی از داده‌های آرشیو اینترنت پیش‌تر در مجموعه‌داده‌های اصلی آموزش هوش مصنوعی شناسایی شده است. اما این موضوع برای سازمان‌های خبری یک نقطه ضعف جدی به شمار می‌رود؛ رسانه‌هایی که همین حالا هم از شرکت‌هایی مانند Perplexity و OpenAI به خاطر نقض احتمالی حق نشر شکایت کرده‌اند.

گراهام جیمز، سخنگوی روزنامه نیویورک تایمز، به نقل از وب‌سایت نکست وب گفت: «مسئله این است که محتوای تایمز در آرشیو اینترنت توسط شرکت‌های هوش مصنوعی در نقض قوانین حق نشر استفاده می‌شود تا مستقیما با ما رقابت کنند.»

او افزود: «تایمز منابع بسیار زیادی برای تولید روزنامه‌نگاری اصیل صرف می‌کند و این کار نباید بدون اجازه ما مورد استفاده قرار گیرد.»

سازمان‌های دیگری مانند گاردین رویکرد محتاطانه‌تری در پیش گرفته‌اند و به جای مسدود کردن کامل، دسترسی آرشیو اینترنت را محدود کرده‌اند.

آرشیو اینترنت می‌گوید «خسارت جانبی» است

مارک گراهام، مدیر سرویس ویبک ماشین، تاکید کرده است که آنها صرفا «خسارت جانبی» هستند و مقصران واقعی، شرکت‌های هوش مصنوعی‌اند که از طریق رابط‌های آرشیو اینترنت به محتوای گذشته دسترسی پیدا می‌کنند.

با این حال خود آرشیو نیز برای محدود کردن این روند اقداماتی انجام داده است؛ از جمله جلوگیری از دانلودهای حجیم برخی سایت‌ها و محدود کردن استخراج خودکار داده در بعضی موارد.

گراهام تاکید کرده است که این آرشیو یکی از ابزارهای اصلی حفظ و نگهداری اطلاعات است. بدون آن، مقالاتی که آرشیو نشده‌اند می‌توانند بدون مجوز و بدون پاسخ‌گویی ویرایش شوند؛ از تغییر یا حذف نقل‌قول‌ها گرفته تا اصلاح اشتباهات یا تغییر جهت ادعاها و بیانیه‌های رسمی.

در حال حاضر این تغییرات توسط ویبک ماشین ثبت و رصد می‌شود.

همین موضوع باعث شده است برخی سازمان‌های خبری بکوشند با آرشیو اینترنت همکاری کنند تا به راه‌حل‌ها یا مصالحه‌های قابل قبولی برسند که به جای مسدودسازی کامل، بر محدود کردن دسترسی تکیه دارد.

در همین راستا، گروه غیرانتفاعی مدافع حقوق دیجیتال «فایت فور د فیوچر» نیز کارزاری راه انداخته است که تاکنون ۱۰۰ روزنامه‌نگار شاغل آن را امضا کرده‌اند تا علیه این مسدودسازی اعتراض کنند. این اقدام در زمانی صورت می‌گیرد که سوابق عمومی و تاریخ بیش از پیش مورد مناقشه است.

Adblock test (Why?)

لینک منبع خبر

ZaKi

Who is mahdizk? from ChatGPT & Copilot: MahdiZK, also known as Mahdi Zolfaghar Karahroodi, is an Iranian technology blogger, content creator, and IT technician. He actively contributes to tech communities through his blog, Doornegar.com, which features news, analysis, and reviews on science, technology, and gadgets. Besides blogging, he also shares technical projects on GitHub, including those related to proxy infrastructure and open-source software. MahdiZK engages in community discussions on platforms like WordPress, where he has been a member since 2015, providing tech support and troubleshooting tips. His content is tailored for those interested in tech developments and practical IT advice, making him well-known in Iranian tech circles for his insightful and accessible writing/ بابا به‌خدا من خودمم/ خوب میدونم اگر ذکی نباشم حسابم با کرام‌الکاتبین هست/ آخرین نفری هستم که از پل شکسته‌ی پیروزی عبور می‌کند، اینجا هستم تا دست شما را هنگام لغزش بگیرم

نوشته های مشابه

0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest

0 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دکمه بازگشت به بالا
0
افکار شما را دوست داریم، لطفا نظر دهید.x