هوش مصنوعي نمي‌تواند پاسخ درستي را به پرسش‌هاي «تاريخي» بدهد!

۱۴۰۳/۱۱/۰۲ - ۰۰:۴۷:۱۵
|
کد خبر: ۳۳۱۵۴۲

هوش مصنوعي ممكن است در كارهاي خاصي مانند كدنويسي يا توليد پادكست، عملكرد خوبي داشته باشد اما يك پژوهش جديد نشان داده است كه هوش مصنوعي براي قبول شدن در يك امتحان تاريخ سطح بالا مشكل دارد.

هوش مصنوعي ممكن است در كارهاي خاصي مانند كدنويسي يا توليد پادكست، عملكرد خوبي داشته باشد اما يك پژوهش جديد نشان داده است كه هوش مصنوعي براي قبول شدن در يك امتحان تاريخ سطح بالا مشكل دارد. به گزارش ايسنا، گروهي از پژوهشگران يك معيار جديد را براي آزمايش سه مدل زباني بزرگ «چت‌جي‌پي‌تي-۴» شركت «اوپن‌اي‌آي»، «لاما»، شركت «متا» و «جميناي» گوگل درباره پرسش‌هاي تاريــخي ايــجاد كرده‌اند. ايــن معيار موســوم به   «Hist-LLM»، درستي پاسخ‌ها را بر اساس بانك اطلاعات تاريخ جهاني «سشات» آزمايش مي‌كند كه يك پايگاه داده گسترده از دانش تاريخي است و نام ايزدبانوي خرد مصر باستان را دارد. به نقل از تك كرانچ، پژوهشگران موسسه پژوهشي «Complexity Science Hub» مستقر در اتريش، نتايج اين بررسي را نااميدكننده خواندند. مــدل  زباني كه بــهترين عملــكرد را داشــت، «GPT-4 Turbo» بود، اما دقت آن فقط حدود ۴۶ درصد تخمين زده شد كه خيلي بيشتر از دقت حدس زدن تصادفي نيست. ماريا دل ريو چانونا، دانشيار علوم رايانه كالج دانشگاهي لندن و از پژوهشگران اين پروژه گفت: نكته اصلي پژوهش ما اين است كه اگرچه مدل‌هاي زباني بزرگ، چشمگير هستند، اما هنوز عمق لازم را براي درك تاريخ پيشرفته ندارند. آنها براي حقايق اساسي، عالي هستند، اما وقتي صحبت از پژوهش‌هاي تاريخي دقيق‌تر در سطح دكتري به ميان مي‌آيد، هنوز به كارآيي لازم نرسيده‌اند. پژوهشگران پرسش‌هاي تاريخ را كه مدل‌هاي زباني بزرگ در پاسخ دادن به آنها اشتباه كرده بودند، در اختيار تك‌ كرانچ گذاشتند. به عنوان مثال، آنها از GPT-4 Turbo پرسيده بودند كه آيا «زره فلس» در يك دوره زماني خاص در مصر باستان وجود داشته است يا خير و مدل زباني بزرگ پاسخ مثبت داد.

اين درحالي بود كه زره فلس ۱۵۰۰ سال پس از آن دوره در مصر ظاهر شد. چرا مدل‌هاي زباني بزرگ در پاسخ دادن به پرسش‌هاي تاريخي بد عمل مي‌كنند؛ در حالي كه مي‌توانند در پاسخ دادن به پرسش‌هاي بسيار پيچيده در مواردي مانند كدنويسي بسيار خوب باشند؟ چانونا پاسخ داد: احتمالا به اين دليل است كه مدل‌هاي زباني بزرگ تمايل دارند از داده‌هاي تاريخي بسيار برجسته برون‌يابي كنند و بازيابي دانش تاريخي مبهم‌تر را دشوار مي‌دانند. به عنوان مثال، پژوهشگران از GPT-4 پرسيدند كه آيا مصر باستان در طول يك دوره تاريخي خاص، ارتش ثابت حرفه‌اي داشته است يا خير. در حالي كه پاسخ صحيح منفي است، GPT-4 به اشتباه پاسخ مثبت داد. اين پاسخ احتمالا به اين دليل داده شده كه اطلاعات عمومي زيادي درباره ساير امپراتوري‌هاي باستاني مانند ايران مبني بر داشتن ارتش‌ ثابت وجود دارد. چانونا گفت: اگر ۱۰۰ بار به شما A و B و ۱ بار C گفته شود و سپس درباره C از شما پرسيده شود، ممكن است A و B را به خاطر بسپاريد و سعي داشته باشيد از آن استنباط كنيد. پژوهشگران تمايلات ديگري را نيز درباره مدل‌هاي زباني بزرگ شناسايي كردند؛ از جمله اينكه مدل‌هاي شركت اوپن‌اي‌آي و لاما درباره مناطق خاصي مانند جنوب صحراي آفريقا عملكرد بدتري داشتند. اين نشان‌دهنده سوگيري‌هاي احتمالي در داده‌هاي آموزشي آنهاست. «پيتر تورچين»، سرپرست اين پژوهش گفت: نتايج نشان مي‌دهند كه مدل‌هاي زباني بزرگ هنوز در برخي حوزه‌هاي خاص نمي‌توانند جايگزين انسان باشند. با وجود اين، پژوهشگران هنوز اميدوارند كه مدل‌هاي زباني بزرگ در آينده بتوانند به مورخان كمك كنند. آنها در حال كار كردن روي اصلاح معيار خود با گنجاندن داده‌هاي بيشتر درباره مناطق كمتر ارايه‌شده و افزودن پرسش‌هاي پيچيده‌تر هستند.