شرکتهای فناوری برای استفاده از محتوای یوتیوب به منظور آموزش مدلهای هوش مصنوعی اجازه نگرفتهاند
مجله وایرد با اشاره به تحقیقات Proof News میگوید شرکتهای فناوری مختلف از جمله اپل، آنتروپیک و انویدیا برای آموزش مدلهای هوش مصنوعی خود از محتوای کانالهای محبوب یوتیوب استفاده کردهان، این در حالی است که تولیدکنندگان محتوا از این موضوع اطلاعی نداشته و پولی در ازای آن دریافت نکردهاند.
مجله وایرد با اشاره به تحقیقات Proof News میگوید شرکتهای فناوری مختلف از جمله اپل، آنتروپیک و انویدیا برای آموزش مدلهای هوش مصنوعی خود از محتوای کانالهای محبوب یوتیوب استفاده کردهان، این در حالی است که تولیدکنندگان محتوا از این موضوع اطلاعی نداشته و پولی در ازای آن دریافت نکردهاند. به گزارش پیوست، بررسیها نشان میدهد که شرکتی به نام EleutherAI رونوشتی از زیرنویس بیش از ۱۷۳ هزار و ۵۳۶ ویدیو یوتیوبی مربوط به بیش از ۴۸ هزار کانال را در یک دیتابیس آموزش گرد هم آورده است و بزرگان سیلیکونولی از جمله آنتروپیک، انویدیا، اپل و Slaesforce از آن برای آموزش مدلهای خود استفاده کردهاند. در این دیتابیس از محتوای تولیدی کانالهای محبوب یوتیوب از جمله مستربیست و پادکسترهای مختلف استفاده شده است.
تولیدکنندگان محتوا استفاده از دادههای خود، آنهم بدون اجازه و پرداخت هزینه، را نادرست میدانند. گوگل، شرکت مادر یوتیوب، نیز براساس گزارش دیگری از نیویورک تایمز از محتوای این پلتفرم برای آموزش هوش مصنوعی استفاده کرده است اما به گفته سخنگوی شرکت، براساس توافق یوتیوب با تولیدکنندگان محتوا، گوگل اجازه استفاده از محتوای آنها را دارد.
با این حال گوگل پیش از این استفاده از این محتوا توسط دیگر شرکتها را مغایر با مقررات خود اعلام کرده است. جای ویپرا، پژوهشگر سیاستهای هوش مصنوعی، میگوید شرکتهای هوش مصنوعی در دسترسی به دادههای با کیفیت برای هوش مصنوعی رقابت میکنند و یوتیوب «معدن طلایی» برای فعالان این حوزه است. بررسیهای تایمز نشان میدهد که شرکت اوپنایآی، سازنده ابزارهای مختلف هوش مصنوعی از جمله سورا که محتوای ویدیویی براساس پرامپت کاربران تولید میکند، نیز از ویدیوهای یوتیوب برای آموزش هوش مصنوعی استفاده کرده است. مدیران اوپنایآی این مساله را رد یا تایید نکردهاند. میرا موراتی در مصاحبهای با والاستریت ژورنال در این باره گفت: «من واقعا در این باره مطمئن نیستم.» تولیدکنندگان محتوا میگویند، شرکتهای هوش مصنوعی در حالی بدون اجازه از محتوای آنها برای آموزش استفاده میکنند که همین مدلهای هوش مصنوعی ممکن است در آینده جایگزین آنها شوند. مدلهای هوش مصنوعی در حال حاضر میتوانند براساس پرامپت کاربران به تولید متن، عکس، ویدیو و صوت بپردازند.
اما زیرنویسهای یوتیوب تنها گنجینه بحثبرانگیز هوش مصنوعی محسوب نمیشوند. سال گذشته مقالهای از آتلانتیک با اشاره به یک بررسی دیگر از دیتاست بزرگ به نام Book3، متشکل از متن بیش از ۱۸۰ هزار کتاب، پرده برداشت که از آن برای آموزش مدلهای هوش مصنوعی استفاده شده است. از سال گذشته و پس از انتشار این مقاله، ناشران بسیاری به دلیل استفاده بدون مجوز از کتابهای خود از شرکتهای هوش مصنوعی شکایت کردهاند. با بالا گرفتن شکایتها، پلتفرم میزبان دیتاست Book3، این گنجینه اطلاعاتی را حذف کرد. با این حال شرکتهای هوش مصنوعی در جبههگیری عمومی خود میگویند که از دادههای رایگان و در دسترس عموم برای آموزش هوش مصنوعی استفاده میکنند و این کار نوعی استفاده منصفانه به حساب میآید. تلاش برای قانونگذاری در این حوزه به ویژه در ایالات متحده، میزبان ارائهدهندگان ابزارهای هوش مصنوعی مولد، همچنان در مراحل اولیه است. دادگاههای این کشور نیز هنوز آرای قاطعی در این باره صادر نکردهاند و سوالات پیرامون لزوم دریافت اجازه و پرداخت هزینه به صاحبان اثر، همچنان بیپاسخ باقی ماندهاند.