هوش مصنوعي «اوپنايآي» محتواي داراي حق چاپ را به خاطر ميسپرد
يافتههاي يك پژوهش جديد به اين ادعا كه شركت «اوپنايآي» حداقل برخي از مدلهاي هوش مصنوعي خود را درباره محتواي داراي حق چاپ آموزش داده است، اعتبار ميبخشند. به گزارش ايسنا، شركت «اوپنايآي» (OpenAI) با برخي از نويسندگان، برنامهنويسان و ساير صاحبان حقوق درگير است كه آن را به استفاده بدون مجوز از آثار آنها شامل كتابها و پايگاههاي رمز براي توسعه مدلهاي خود متهم ميكنند.
يافتههاي يك پژوهش جديد به اين ادعا كه شركت «اوپنايآي» حداقل برخي از مدلهاي هوش مصنوعي خود را درباره محتواي داراي حق چاپ آموزش داده است، اعتبار ميبخشند. به گزارش ايسنا، شركت «اوپنايآي» (OpenAI) با برخي از نويسندگان، برنامهنويسان و ساير صاحبان حقوق درگير است كه آن را به استفاده بدون مجوز از آثار آنها شامل كتابها و پايگاههاي رمز براي توسعه مدلهاي خود متهم ميكنند. اوپنايآي مدتها از استفاده منصفانه خود دفاع كرده است، اما شاكيان اين موارد استدلال ميكنند كه در قانون حق چاپ امريكا هيچ موردي براي استفاده از دادههاي آموزشي وجود ندارد. به نقل از تك كرانچ، اين پژوهش كه توسط پژوهشگران «دانشگاه واشنگتن»، «دانشگاه كپنهاگ» و «دانشگاه استنفورد» انجام شده است، روش جديدي را براي شناسايي دادههاي آموزشي پيشنهاد ميكند كه توسط مدلهاي پشت يك API متعلق به شركتهايي مانند اوپنايآي حفظ شدهاند. مدلهاي هوش مصنوعي مانند موتورهاي پيشبيني هستند. مدلهايي كه روي دادههاي زيادي آموزش ديدهاند، الگوها را ياد ميگيرند و به اين ترتيب ميتوانند مقاله، عكس و خروجيهاي ديگر را توليد كنند. بيشتر خروجيها كپي كلمهبهكلمه دادههاي آموزشي نيستند، اما به دليل روش يادگيري مدلها، برخي از موارد ناگزير كپي ميشوند. مشخص شده است كه مدلهاي تصويري از فيلمهايي كه روي آنها آموزش ديدهاند، اسكرينشات ميگيرند. همچنين، در موارد بسياري مشاهده شده است كه مدلهاي زباني از مقالات خبري سرقت ميكنند. پژوهشگران در اين پروژه، چندين مدل شركت اوپنايآي از جمله «GPT-4» و «GPT-3.5» را براي يافتن نشانههايي از حفظ كردن با حذف كلمات از كتابهاي داستاني و مقالات نيويورك تايمز بررسي كردند و از مدلها خواستند تا حدس بزنند كدام كلمات پوشانده شدهاند. نويسندگان همكار به اين نتيجه رسيدند كه اگر مدلها به درستي حدس بزنند، احتمالا اين متنها را در طول روند آموزش حفظ كردهاند. بر اساس نتايج آزمايشها، GPT-4 نشانههايي را از حفظ كردن بخشهايي از كتابهاي داستاني محبوب، از جمله كتابهاي الكترونيكي داراي حق چاپ نشان داد. همچنين، نتيجه آزمايشها نشان داد كه اين مدل هوش مصنوعي، بخشهايي را از مقالات نيويورك تايمز - البته با نرخ نسبتا پايينتر - حفظ كرده است. «ابيلاشا راويچاندر» (Abhilasha Ravichander)، دانشجوي دانشگاه واشنگتن و از پژوهشگران اين پروژه خاطرنشان كرد كه يافتهها، مدلهاي داراي دادههاي متضاد را آشكار كردند. راويچاندر گفت: براي داشتن مدلهاي زباني بزرگ و قابل اعتماد بايد مدلهايي داشته باشيم كه بتوانيم آنها را تحت ارزيابي، مميزي و بررسي علمي قرار دهيم. هدف پژوهش ما ارايه راهي براي بررسي مدلهاي زباني بزرگ است، اما نياز واقعي به شفافيت بيشتر دادهها در كل اكوسيستم احساس ميشود. اوپنايآي مدتهاست كه از محدوديتهاي كمتر در توسعه مدلهايي با استفاده از دادههاي داراي حق چاپ حمايت ميكند. اگرچه اين شركت قراردادهاي خاصي را براي صدور مجوز محتوا دارد و مكانيسمهايي را ارايه كرده كه به صاحبان اثر امكان ميدهند محتواي داراي حق چاپ را مشخص كنند، اما چندين بار دولت امريكا را ترغيب كرده است تا قوانين استفاده منصفانه را درباره رويكردهاي آموزشي هوش مصنوعي تدوين كند.