مدل GPT-4 مردم را در طول مکالمه فریب میدهد
یک مطالعه جدید نشان داده است که مردم در تشخیص GPT-4 با انسانها تقلا میکنند و مدل هوش مصنوعی جدید GPT-4 تقریباً در ۵۰ از موارد از عملکرد انسانی پیشی میگیرد.
مدل GPT-4 به دلیل توانایی ذاتی خود در سنجش اعلانهای نوشتاری و دریافت پاسخهای مناسب به چندین زبان، کاربران را شگفتزده کرده است. به نظر میرسد کیفیت این ربات بیشتر مردم را گیج میکند، به طوری که به سختی میتوانند بین یک ربات و یک انسان تمایز قائل شوند.
به گزارش ایسنا، به نقل از تیسی، این یک سردرگمی بزرگ است، زیرا برخی از نتایج تولیدشده توسط ربات بسیار واقعی به نظر میرسند.
کاوش هوش شبهانسانی GPT-4
این افزایش هیاهو باعث شد که محققان دانشگاه کالیفرنیا سندیگو(UC San Diego) به این معضل بپردازند. آنها آزمایش معروف تورینگ را که به نام «آلن تورینگ» دانشمند مشهور نامگذاری شده است، انجام دادند. هدف از این آزمایش تعیین میزان توانایی یک ماشین از سطح هوشی مانند یک انسان بود.
محققان یافتههای خود را بر روی سرور arXiv دانشگاه کرنل منتشر کردند و به این نتیجه رسیدند که افراد هنگام تعامل با یک ربات، تمایز بین مدل GPT-4 و عامل انسانی را دشوار میدانند.
کامرون جونز، سرپرست این مطالعه برای اولین بار این مطالعه را تحت نظارت یک پروفسور علوم شناختی در دانشگاه کالیفرنیا سندیگو انجام داد.
جونز گفت: در هفته اول چند مقاله کلاسیک در مورد آزمون تورینگ خواندیم و در مورد اینکه آیا یک مدل زبانی بزرگ(LLM) میتواند آن را قبول کند و اینکه آیا میتواند مهم باشد یا خیر، بحث کردیم. میتوانم بگویم تاکنون هیچکس در این سطح تلاش نکرده بود، بنابراین تصمیم گرفتم آزمایشی بسازم تا آن را به عنوان پروژه کلاس خود بررسی کنم و سپس اولین آزمایش اکتشافی عمومی را اجرا کردیم.
نتایج این مطالعه جالب بود. این پژوهش نشان داد که مدل هوش مصنوعی GPT-4 تقریباً در ۵۰ درصد از تعاملات به راحتی میتواند از انسان پیشی بگیرد.
تائید پاسخهای انسانی هوش مصنوعی
پژوهشگران در مورد نتایج آزمایش اول تردید داشتند، بنابراین تصمیم گرفتند با انجام یک آزمایش دوم آن را اثبات کنند. کامرون جونز میگوید یک نسخه آنلاین از یک بازی دو نفره ایجاد کردیم که به شرکتکنندگان انسانی اجازه میدهد با یک انسان یا یک مدل هوش مصنوعی تعامل داشته باشند.
در این بازی، یک «بازپرس» که میتواند یک انسان یا یک عامل هوش مصنوعی باشد، با یک «شاهد» تعامل داشت. بازپرس به سادگی سؤالاتی را میپرسید و تعیین میکرد که آیا یک انسان یا یک مدل هوش مصنوعی پاسخ میدهد.
اغلب این مکالمات پنج دقیقه طول میکشید و بازپرس در پایان فاش میکرد که آیا این یک مدل هوش مصنوعی است یا نه. شرکتکنندگان اجازه داشتند در مورد هر چیزی که میخواهند، به مدت پنج دقیقه بدون توهین صحبت کنند.
جونز میگوید: اگرچه انسانهای واقعی در واقع موفقتر بودند و بازپرسها را در دو سوم مواقع متقاعد کردند که انسان هستند، اما نتایج ما نشان میدهد که در دنیای واقعی، افراد ممکن است نتوانند به طور قابل اعتماد تشخیص دهند که با یک انسان صحبت میکنند یا یک هوش مصنوعی.
محققان سه مدل زبانی بزرگ مختلف را به عنوان شاهد بالقوه به کار گرفتند که مدلهای GPT-4، GPT 3.5 و ELIZA را شامل میشد. نتایج نشان داد که کاربران میتوانند مدلهای ELIZA و GPT-3.5 را شناسایی کنند، اما در مورد GPT-4 این چنین نیست.