اوپنايآي و ديگر شركتها بهدنبال مسير تازهاي براي بهبود عملكرد هوش مصنوعي هستند
شركتهاي هوش مصنوعي براي غلبه بر مشكلات و تاخيرهاي غيرمنتظر در توسعه مدلهاي زباني بزرگتر به دنبال ترفندهاي جديد آموزشي هستند كه از روشهاي انسانگونهاي براي «تفكر» الگوريتمها استفاده ميكند.
شركتهاي هوش مصنوعي براي غلبه بر مشكلات و تاخيرهاي غيرمنتظر در توسعه مدلهاي زباني بزرگتر به دنبال ترفندهاي جديد آموزشي هستند كه از روشهاي انسانگونهاي براي «تفكر» الگوريتمها استفاده ميكند.
به گزارش پيوست به نقل از رويترز، دهها پژوهشگر، محقق و سرمايهگذار ميگويند اين ترفندها كه يكي از بنيانهاي توسعه مدل o1 هستند ممكن است شكل تازهاي به رقابت هوش مصنوعي بدهند و تبعاتي براي انرژي و چيپهاي خواهند داشت. پس از عرضه چتبات محبوب ChatGPT در سال ۲۰۲۲، شركتهاي فناوري كه در حال حاضر با رقمهاي خيرهكننده ارزشگذاري ميشوند به دنبال توسعه ابعاد اين مدلها بودند و از داده بيشتر و افزايش قدرت رايانشي در اين مسير بهره گرفتهاند. اما حالا پژوهشگران ارشد اين حوزه رويكرد «بزرگتر بهتر است» را مورد تحت بازبيني دارند و ممكن است رويكرد تازهاي را در مسير توسعه اين صنعت مشاهده كنيم.
ايليا سوتسكور، همبنيانگذار شركت هوش مصنوعي Safe Superintelligence)SSI )و يكي از بنيانگذاران اوپنايآي، ميگويد در حال حاضر نتيجه حاصل از توسعه پيش آموزش (مرحلهاي كه يك مدل هوش مصنوعي با استفاده از مقدار زيادي داده آموزش ديده و الگوها و ساختارهاي آن را درك ميكند) به بنبست رسيده است. سوتسكور به عنوان يكي از افراد تاثيرگذار در جهشهاي هوش مصنوعي مولد و آموزش اين مدلهاي شناخته ميشود كه در نهايت به توسعه ChatGPT منتهي شد. او ابتداي سال جاري ميلادي پس از جدايي از اوپنايآي شركت SSI را بنيانگذاري كرد. سوتسكور ميگويد: «دهه ۲۰۱۰ عصر توسعه بود، حالا بار ديگر به عصر پرسش و كشف بازگشتهايم. همه به دنبال پديده بزرگ بعدي هستند. در حال حاضر مهمترين چيز اين است كه يك عنصر درست را توسعه دهيد.» سوتسكور جزييات بيشتري درمورد پيشرفت تيمش در اين حوزه اشاره نكرد و تنها گفت SSI در حال كار روي رويكردي متفاوت نسبت به توسعه پيش از آموزش است. افراد مطلع ميگويند كه پژوهشگران در پشت پرده بزرگترين آزمايشگاههاي هوش مصنوعي با تاخير و نااميدي براي ساخت مدلي بهتر از GPT-4 مواجه شدهاند كه حدود دو سالي از عمرش ميگذرد. روند آموزش مدلهاي بزرگتر ممكن است دهها ميليون دلار هزينه داشته باشد و در عين حال به صدها چيپ تخصصي نياز است. با توجه به پيچيدگي اين سيستمها، احتمال ناتواني سختافزار هم بيشتر ميشود و پژوهشگران ممكن است از عملكرد نهايي يك مدل كه شايد روند توسعه آن ماهها زمان ببرد اطلاعي نداشته باشند. مساله ديگر اين است كه مدلهاي بزرگ زباني مقدار زيادي داده را ميطلبند و مدلهاي هوش مصنوعي در حال حاضر بيشتر دادههاي عمومي را استفاده كردهاند. كمبود انرژي نيز يكي ديگر از موانع توسعه اين سيستمها است. پژوهشگران براي غلبه بر اين موانع در حال بررسي ترفندي به نام «تخمين زمان آزمايش» هستند كه مدلهاي موجود را در مرحله «استنباط» يا همان زمان استفاده از آنها، تقويت ميكند. براي مثال به جاي انتخاب يك پاسخ واحد و فوري، مدل ميتواند چندين احتمال را در لحظه توليد و ارزيابي كند و در نهايت بهترين مسير را انتخاب كند. اين روش به مدلها اجازه ميدهد تا توان رايانشي بيشتري را به وظايف پيچيده مثل رياضي و كدنويسي يا عملياتهاي پيچيده كه نيازمند استدلال انسانگونه و تصميمگيري هستند، اختصاص دهند. نوام براون، پژوهشگري از اوپنايآي كه روي مدل o1 فعاليت داشته است ماه گذشته در كنفرانس هوش مصنوعي TED در سن فرانسيسكو، گفت: «متوجه شديم كه وادار كردن يك روبات به تنها ۲۰ ثانيه فكر كردن در يك دست پوكر باعث شد تا عملكرد مدل معادل با توسعه ۱۰۰ هزار برابري و آموزش ۱۰۰ هزار بار طولانيتر افزايش يابد.» اوپنايآي در مدل جديد o1 از همين ترفند استفاده كرده است.