هوش مصنوعي «اوپن‌اي‌آي» محتواي داراي حق چاپ را به خاطر مي‌سپرد

۱۴۰۴/۰۱/۱۶ - ۲۳:۰۹:۳۷
|
کد خبر: ۳۳۸۸۵۲

يافته‌هاي يك پژوهش جديد به اين ادعا كه شركت «اوپن‌اي‌آي» حداقل برخي از مدل‌هاي هوش مصنوعي خود را درباره محتواي داراي حق چاپ آموزش داده است، اعتبار مي‌بخشند. به گزارش ايسنا، شركت «اوپن‌اي‌آي» (OpenAI) با برخي از نويسندگان، برنامه‌نويسان و ساير صاحبان حقوق درگير است كه آن را به استفاده بدون مجوز از آثار آنها شامل كتاب‌ها و پايگاه‌هاي رمز براي توسعه مدل‌هاي خود متهم مي‌كنند.

يافته‌هاي يك پژوهش جديد به اين ادعا كه شركت «اوپن‌اي‌آي» حداقل برخي از مدل‌هاي هوش مصنوعي خود را درباره محتواي داراي حق چاپ آموزش داده است، اعتبار مي‌بخشند. به گزارش ايسنا، شركت «اوپن‌اي‌آي» (OpenAI) با برخي از نويسندگان، برنامه‌نويسان و ساير صاحبان حقوق درگير است كه آن را به استفاده بدون مجوز از آثار آنها شامل كتاب‌ها و پايگاه‌هاي رمز براي توسعه مدل‌هاي خود متهم مي‌كنند. اوپن‌اي‌آي مدت‌ها از استفاده منصفانه خود دفاع كرده است، اما شاكيان اين موارد استدلال مي‌كنند كه در قانون حق چاپ امريكا هيچ موردي براي استفاده از داده‌هاي آموزشي وجود ندارد. به نقل از تك كرانچ، اين پژوهش كه توسط پژوهشگران «دانشگاه واشنگتن»، «دانشگاه كپنهاگ» و «دانشگاه استنفورد» انجام شده است، روش جديدي را براي شناسايي داده‌هاي آموزشي پيشنهاد مي‌كند كه توسط مدل‌هاي پشت يك API متعلق به شركت‌هايي مانند اوپن‌اي‌آي حفظ شده‌اند. مدل‌هاي هوش مصنوعي مانند موتورهاي پيش‌بيني هستند. مدل‌هايي كه روي داده‌هاي زيادي آموزش ديده‌اند، الگوها را ياد مي‌گيرند و به اين ترتيب مي‌توانند مقاله، عكس و خروجي‌هاي ديگر را توليد كنند. بيشتر خروجي‌ها كپي كلمه‌به‌كلمه داده‌هاي آموزشي نيستند، اما به دليل روش يادگيري مدل‌ها، برخي از موارد ناگزير كپي مي‌شوند. مشخص شده است كه مدل‌هاي تصويري از فيلم‌هايي كه روي آنها آموزش ديده‌اند، اسكرين‌شات مي‌گيرند. همچنين، در موارد بسياري مشاهده شده است كه مدل‌هاي زباني از مقالات خبري سرقت مي‌كنند. پژوهشگران در اين پروژه، چندين مدل شركت اوپن‌اي‌آي از جمله «GPT-4» و «GPT-3.5» را براي يافتن نشانه‌هايي از حفظ كردن با حذف كلمات از كتاب‌هاي داستاني و مقالات نيويورك تايمز بررسي كردند و از مدل‌ها خواستند تا حدس بزنند كدام كلمات پوشانده شده‌اند. نويسندگان همكار به اين نتيجه رسيدند كه اگر مدل‌ها به درستي حدس بزنند، احتمالا اين متن‌ها را در طول روند آموزش حفظ كرده‌اند. بر اساس نتايج آزمايش‌ها، GPT-4 نشانه‌هايي را از حفظ كردن بخش‌هايي از كتاب‌هاي داستاني محبوب، از جمله كتاب‌هاي الكترونيكي داراي حق چاپ نشان داد. همچنين، نتيجه آزمايش‌ها نشان داد كه اين مدل هوش مصنوعي، بخش‌هايي را از مقالات نيويورك تايمز - البته با نرخ نسبتا پايين‌تر - حفظ كرده است. «ابيلاشا راويچاندر» (Abhilasha Ravichander)، دانشجوي دانشگاه واشنگتن و از پژوهشگران اين پروژه خاطرنشان كرد كه يافته‌ها، مدل‌هاي داراي داده‌هاي متضاد را آشكار كردند. راويچاندر گفت: براي داشتن مدل‌هاي زباني بزرگ و قابل اعتماد بايد مدل‌هايي داشته باشيم كه بتوانيم آنها را تحت ارزيابي، مميزي و بررسي علمي قرار دهيم. هدف پژوهش ما ارايه راهي براي بررسي مدل‌هاي زباني بزرگ است، اما نياز واقعي به شفافيت بيشتر داده‌ها در كل اكوسيستم احساس مي‌شود. اوپن‌اي‌آي مدت‌هاست كه از محدوديت‌هاي كمتر در توسعه مدل‌هايي با استفاده از داده‌هاي داراي حق چاپ حمايت مي‌كند. اگرچه اين شركت قراردادهاي خاصي را براي صدور مجوز محتوا دارد و مكانيسم‌هايي را ارايه كرده كه به صاحبان اثر امكان مي‌دهند محتواي داراي حق چاپ را مشخص كنند، اما چندين بار دولت امريكا را ترغيب كرده است تا قوانين استفاده منصفانه را درباره رويكردهاي آموزشي هوش مصنوعي تدوين كند.