چرا ناشران خبری جلوی دسترسی هوش مصنوعی به آرشیوهای اینترنتی را می‌گیرند

ZaKiمی 1, 2026

0 31 خواندن این مطلب 3 دقیقه زمان میبرد

نگارش از&nbspIndrabati Lahiri

تاریخ انتشار
۰۱/۰۵/۲۰۲۶ – ۱۶:۲۴ ‎+۲ گرینویچ

حدود ۲۴۵ سازمان خبری در ۹ کشور جهان در تلاش هستند دسترسی کراولرهای آرشیو اینترنت را مسدود کنند. این کراولرها ربات‌های نرم‌افزاری خودکاری هستند که محتوا را از صفحات وب دریافت، نمایش و در رابط عمومی آرشیو اینترنت، یعنی سرویس ویبک ماشین، آرشیو می‌کنند.

در این آرشیو بیش از یک تریلیون صفحه وب نگهداری می‌شود که قدمت آنها به سال ۱۹۹۶ می‌رسد و آن را به یکی از بزرگ‌ترین منابع عمومی اطلاعات در جهان تبدیل کرده است. این مجموعه شامل مقالات قدیمی رسانه‌های بزرگ خبری مانند CNN، نیویورک تایمز، گاردین و یواس‌ای تودی هم می‌شود.

این صفحات وب برای کاربردهای مختلفی استفاده می‌شوند؛ مثلا به عنوان منابع دست اول برای تاریخ‌نگاران یا برای اثبات تغییراتی که پس از انتشار در متون ایجاد شده است.

چندین سازمان خبری اکنون برای مسدود کردن این کراولرها فشار می‌آورند، چون شرکت‌های فعال در حوزه هوش مصنوعی بدون پرداخت منصفانه یا گرفتن مجوز، از محتوای این آرشیو برای آموزش مدل‌های زبانی بزرگ استفاده می‌کنند.

بنا بر تحلیل شرکت ردیابی هوش مصنوعی Originality AI، بیش از ۲۰ سازمان خبری بزرگ در حال حاضر دسترسی ia_archiverbot، اصلی‌ترین خزنده وب که آرشیو اینترنت برای سرویس ویبک ماشین از آن استفاده می‌کند، را مسدود کرده‌اند.

با این حال دست‌کم یکی از چهار ربات خزنده آرشیو اینترنت توسط ۲۴۱ وب‌سایت خبری در جهان مسدود شده است. بخش عمده این وب‌سایت‌های مسدود شده متعلق به شرکت یواس‌ای تودی، بزرگ‌ترین ناشر روزنامه در ایالات متحده است. این وضع به آن معناست که صدها نشریه محلی عملا از سوابق تاریخی حذف شده‌اند.

خطرات استفاده از محتوای آرشیوی برای آموزش هوش مصنوعی

محتوای خبری آرشیوی حجم عظیمی متن و تصویر با کیفیت بالا در اختیار می‌گذارد تا مدل‌های بزرگ مدل‌های هوش مصنوعی را با نوشتاری نزدیک‌تر به زبان انسان آموزش دهند. این داده‌ها از طریق نشانی‌های اینترنتی و رابط‌های برنامه‌نویسی یا API در دسترس است؛ رابط‌هایی که به نرم‌افزارهای مختلف امکان می‌دهند با یکدیگر ارتباط برقرار کنند و داده‌ها را درخواست کنند و در نقش پلی میان سامانه‌ها عمل می‌کنند.

این وضعیت دسترسی شرکت‌های هوش مصنوعی به داده‌های آرشیوی و آموزش مدل‌ها را باز هم آسان‌تر می‌کند.

مزیت دیگر این است که محتوای موجود در آرشیو اینترنت از پیش ساختاردهی شده، منبع آن مشخص است و تاریخ دارد.

بخش زیادی از داده‌های آرشیو اینترنت پیش‌تر در مجموعه‌داده‌های اصلی آموزش هوش مصنوعی شناسایی شده است. اما این موضوع برای سازمان‌های خبری یک نقطه ضعف جدی به شمار می‌رود؛ رسانه‌هایی که همین حالا هم از شرکت‌هایی مانند Perplexity و OpenAI به خاطر نقض احتمالی حق نشر شکایت کرده‌اند.

گراهام جیمز، سخنگوی روزنامه نیویورک تایمز، به نقل از وب‌سایت نکست وب گفت: «مسئله این است که محتوای تایمز در آرشیو اینترنت توسط شرکت‌های هوش مصنوعی در نقض قوانین حق نشر استفاده می‌شود تا مستقیما با ما رقابت کنند.»

او افزود: «تایمز منابع بسیار زیادی برای تولید روزنامه‌نگاری اصیل صرف می‌کند و این کار نباید بدون اجازه ما مورد استفاده قرار گیرد.»

سازمان‌های دیگری مانند گاردین رویکرد محتاطانه‌تری در پیش گرفته‌اند و به جای مسدود کردن کامل، دسترسی آرشیو اینترنت را محدود کرده‌اند.

آرشیو اینترنت می‌گوید «خسارت جانبی» است

مارک گراهام، مدیر سرویس ویبک ماشین، تاکید کرده است که آنها صرفا «خسارت جانبی» هستند و مقصران واقعی، شرکت‌های هوش مصنوعی‌اند که از طریق رابط‌های آرشیو اینترنت به محتوای گذشته دسترسی پیدا می‌کنند.

با این حال خود آرشیو نیز برای محدود کردن این روند اقداماتی انجام داده است؛ از جمله جلوگیری از دانلودهای حجیم برخی سایت‌ها و محدود کردن استخراج خودکار داده در بعضی موارد.

گراهام تاکید کرده است که این آرشیو یکی از ابزارهای اصلی حفظ و نگهداری اطلاعات است. بدون آن، مقالاتی که آرشیو نشده‌اند می‌توانند بدون مجوز و بدون پاسخ‌گویی ویرایش شوند؛ از تغییر یا حذف نقل‌قول‌ها گرفته تا اصلاح اشتباهات یا تغییر جهت ادعاها و بیانیه‌های رسمی.

در حال حاضر این تغییرات توسط ویبک ماشین ثبت و رصد می‌شود.

همین موضوع باعث شده است برخی سازمان‌های خبری بکوشند با آرشیو اینترنت همکاری کنند تا به راه‌حل‌ها یا مصالحه‌های قابل قبولی برسند که به جای مسدودسازی کامل، بر محدود کردن دسترسی تکیه دارد.

در همین راستا، گروه غیرانتفاعی مدافع حقوق دیجیتال «فایت فور د فیوچر» نیز کارزاری راه انداخته است که تاکنون ۱۰۰ روزنامه‌نگار شاغل آن را امضا کرده‌اند تا علیه این مسدودسازی اعتراض کنند. این اقدام در زمانی صورت می‌گیرد که سوابق عمومی و تاریخ بیش از پیش مورد مناقشه است.

Adblock test (Why?)

لینک منبع خبر

برچسب ها

ZaKiمی 1, 2026

0 31 خواندن این مطلب 3 دقیقه زمان میبرد

ش	ی	د	س	چ	پ	ج
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

خطرات استفاده از محتوای آرشیوی برای آموزش هوش مصنوعی

آرشیو اینترنت می‌گوید «خسارت جانبی» است

ZaKi

نوشته های مشابه

خرید سی پی زمان بر اقتصادی از موجوجم

جنگنده‌ای که چین با هوش مصنوعی می‌سازد

نسخه جدید بتلفیلد تابستان امسال معرفی می‌شود

سایه‌ سنگین هوش مصنوعی بر آخرین کنفرانس تیم کوک؛ در WWDC 2026 چه گذشت؟

دیدگاهتان را بنویسید لغو پاسخ