هوش مصنوعي نميتواند پاسخ درستي را به پرسشهاي «تاريخي» بدهد!
هوش مصنوعي ممكن است در كارهاي خاصي مانند كدنويسي يا توليد پادكست، عملكرد خوبي داشته باشد اما يك پژوهش جديد نشان داده است كه هوش مصنوعي براي قبول شدن در يك امتحان تاريخ سطح بالا مشكل دارد.
هوش مصنوعي ممكن است در كارهاي خاصي مانند كدنويسي يا توليد پادكست، عملكرد خوبي داشته باشد اما يك پژوهش جديد نشان داده است كه هوش مصنوعي براي قبول شدن در يك امتحان تاريخ سطح بالا مشكل دارد. به گزارش ايسنا، گروهي از پژوهشگران يك معيار جديد را براي آزمايش سه مدل زباني بزرگ «چتجيپيتي-۴» شركت «اوپنايآي»، «لاما»، شركت «متا» و «جميناي» گوگل درباره پرسشهاي تاريــخي ايــجاد كردهاند. ايــن معيار موســوم به «Hist-LLM»، درستي پاسخها را بر اساس بانك اطلاعات تاريخ جهاني «سشات» آزمايش ميكند كه يك پايگاه داده گسترده از دانش تاريخي است و نام ايزدبانوي خرد مصر باستان را دارد. به نقل از تك كرانچ، پژوهشگران موسسه پژوهشي «Complexity Science Hub» مستقر در اتريش، نتايج اين بررسي را نااميدكننده خواندند. مــدل زباني كه بــهترين عملــكرد را داشــت، «GPT-4 Turbo» بود، اما دقت آن فقط حدود ۴۶ درصد تخمين زده شد كه خيلي بيشتر از دقت حدس زدن تصادفي نيست. ماريا دل ريو چانونا، دانشيار علوم رايانه كالج دانشگاهي لندن و از پژوهشگران اين پروژه گفت: نكته اصلي پژوهش ما اين است كه اگرچه مدلهاي زباني بزرگ، چشمگير هستند، اما هنوز عمق لازم را براي درك تاريخ پيشرفته ندارند. آنها براي حقايق اساسي، عالي هستند، اما وقتي صحبت از پژوهشهاي تاريخي دقيقتر در سطح دكتري به ميان ميآيد، هنوز به كارآيي لازم نرسيدهاند. پژوهشگران پرسشهاي تاريخ را كه مدلهاي زباني بزرگ در پاسخ دادن به آنها اشتباه كرده بودند، در اختيار تك كرانچ گذاشتند. به عنوان مثال، آنها از GPT-4 Turbo پرسيده بودند كه آيا «زره فلس» در يك دوره زماني خاص در مصر باستان وجود داشته است يا خير و مدل زباني بزرگ پاسخ مثبت داد.
اين درحالي بود كه زره فلس ۱۵۰۰ سال پس از آن دوره در مصر ظاهر شد. چرا مدلهاي زباني بزرگ در پاسخ دادن به پرسشهاي تاريخي بد عمل ميكنند؛ در حالي كه ميتوانند در پاسخ دادن به پرسشهاي بسيار پيچيده در مواردي مانند كدنويسي بسيار خوب باشند؟ چانونا پاسخ داد: احتمالا به اين دليل است كه مدلهاي زباني بزرگ تمايل دارند از دادههاي تاريخي بسيار برجسته برونيابي كنند و بازيابي دانش تاريخي مبهمتر را دشوار ميدانند. به عنوان مثال، پژوهشگران از GPT-4 پرسيدند كه آيا مصر باستان در طول يك دوره تاريخي خاص، ارتش ثابت حرفهاي داشته است يا خير. در حالي كه پاسخ صحيح منفي است، GPT-4 به اشتباه پاسخ مثبت داد. اين پاسخ احتمالا به اين دليل داده شده كه اطلاعات عمومي زيادي درباره ساير امپراتوريهاي باستاني مانند ايران مبني بر داشتن ارتش ثابت وجود دارد. چانونا گفت: اگر ۱۰۰ بار به شما A و B و ۱ بار C گفته شود و سپس درباره C از شما پرسيده شود، ممكن است A و B را به خاطر بسپاريد و سعي داشته باشيد از آن استنباط كنيد. پژوهشگران تمايلات ديگري را نيز درباره مدلهاي زباني بزرگ شناسايي كردند؛ از جمله اينكه مدلهاي شركت اوپنايآي و لاما درباره مناطق خاصي مانند جنوب صحراي آفريقا عملكرد بدتري داشتند. اين نشاندهنده سوگيريهاي احتمالي در دادههاي آموزشي آنهاست. «پيتر تورچين»، سرپرست اين پژوهش گفت: نتايج نشان ميدهند كه مدلهاي زباني بزرگ هنوز در برخي حوزههاي خاص نميتوانند جايگزين انسان باشند. با وجود اين، پژوهشگران هنوز اميدوارند كه مدلهاي زباني بزرگ در آينده بتوانند به مورخان كمك كنند. آنها در حال كار كردن روي اصلاح معيار خود با گنجاندن دادههاي بيشتر درباره مناطق كمتر ارايهشده و افزودن پرسشهاي پيچيدهتر هستند.