پيشرفت ۳ هوش مصنوعي بزرگ در توليد تصاوير

۱۴۰۳/۰۵/۲۹ - ۰۱:۵۰:۰۳
کد خبر: ۳۱۹۱۳۲

مدتي است كه با تصاوير توليدشده توسط هوش مصنوعي زندگي مي‌كنيم، اما اين هفته، برخي از بازيگران اصلي اين حوزه، گام‌هاي بزرگي رو به جلو برداشته‌اند. به‌طور خاص در اينجا در مورد به‌روزرساني‌هاي مهم ميدجرني (Midjourney)، مدل جديد گوگل و گروك (Grok) صحبت مي‌كنيم. به گزارش ايسنا، هر يك از شركت‌ها نشان مي‌دهند كه فناوري با سرعت‌ و در جهات مختلف در حال تكامل است و هر شركت نشان مي‌دهد كه پيشرفت‌ها تا كجا پيش رفته است.

مدتي است كه با تصاوير توليدشده توسط هوش مصنوعي زندگي مي‌كنيم، اما اين هفته، برخي از بازيگران اصلي اين حوزه، گام‌هاي بزرگي رو به جلو برداشته‌اند. به‌طور خاص در اينجا در مورد به‌روزرساني‌هاي مهم ميدجرني (Midjourney)، مدل جديد گوگل و گروك (Grok) صحبت مي‌كنيم. به گزارش ايسنا، هر يك از شركت‌ها نشان مي‌دهند كه فناوري با سرعت‌ و در جهات مختلف در حال تكامل است و هر شركت نشان مي‌دهد كه پيشرفت‌ها تا كجا پيش رفته است. به نقل از ديجيتال‌ترندز، با ميدجرني (Midjourney) شروع كنيم كه بي سر و صدا يك ويرايشگر وب جديد را اواخر روز پنجشنبه منتشر كرده است كه تعدادي از ابزارهاي مفيد دستكاري تصوير را در يك رابط كاربري جمع مي‌كند. پيش از اين، عملكردهايي مانند قاب بندي مجدد، رنگ آميزي مجدد گسترش مرزهاي تصوير و توليد محتوا براي پر كردن آن و بزرگنمايي همگي نياز به ابزار خاص خود داشتند و در چندين فهرست قرار گرفته بودند و از سازندگان خواسته مي‌شد كه دائما بين اين فهرست‌ها جابه‌جا شوند. اين رابط كاربري جديد فرآيند ويرايش منسجم‌تر و ساده‌تري را ارائه مي‌دهد. به گفته ديويد هولز (David Holz) مدير عامل ميدجرني در ديسكورد، ويرايشگر وب جديد به گونه‌اي طراحي شده است كه ويرايش تصاوير توليد شده با هوش مصنوعي را آسان‌تر و بدون مشكل‌تر مي‌كند. او نوشت: ما فكر مي‌كنيم كه اين كار ويرايش تصاوير را بسيار راحت‌تر از قبل مي‌كند و گام بزرگي رو به جلو است. اين شركت همچنين ابزار گزينش جديدي را معرفي كرده است كه مانند يك قلم‌موی ديجيتال كار مي‌كند و جايگزين ابزار انتخاب مربعي و بيضي مي‌شود. ويرايشگر جديد براي همه كاربران ميدجرني كه پيش از اين بيش از ۱۰ تصوير روي پلتفرم توليد كرده‌اند، در دسترس است. واكنش‌هاي‌ اوليه از سوي جامعه تا حد زيادي مثبت بوده است. اين ويرايشگر دو هفته پس از انتشار ميدجرني ۶.۱ ارايه مي‌شود كه كيفيت و انسجام تصوير مانند تعداد صحيح انگشتان و همچنين زمان پردازش و درك دقت متن را به‌طور قابل توجهي بهبود بخشيد.

 

گروك-۲ (Grok-2)  هيولا را آزاد مي‌كند

به‌روزرساني ميدجرني نيز تنها دو روز پس از انتشار گروك-۲ توسط استارت‌آپ xAI ايلان ماسك ارائه مي‌شود كه اتفاق بزرگ بعدي اين هفته است. محبوبيت قابليت‌هاي توليد تصوير گروك به دليل كيفيت تصوير چشمگير و قابليت استفاده رايگان، به سرعت در حال افزايش است. بزرگ‌ترين بحث در مورد گروك-۲ فقط كيفيت آن نيست، بلكه دستورالعمل‌هاي ظاهرا تعريف نشده آن است. برخلاف بسياري از توليدكننده‌هاي تصوير هوش مصنوعي، به نظر مي‌رسد گروك-۲ از نظر دستورالعمل‌هاي مربوط به مالكيت معنوي، خشونت و ساير محتواها چيز كمي براي گفتن دارد. مردم پيش از اين محدوديت‌هاي آن را آزمايش كرده‌اند و انواع تصاوير وحشتناك و عجيب و غريب را ايجاد كرده‌اند كه روزهاي اوليه توليد تصوير هوش مصنوعي را تداعي مي‌كند. اما اگر به سخنان ماسك اعتقاد داريد، فقدان دستورالعمل‌هاي گروك-۲ هدفمند به نظر مي‌رسد و در نهايت مي‌تواند به چگونگي تكامل اين فناوري در آينده شكل بدهد.

 

گوگل با ايمجن ۳ (Imagen 3)  خود وارد رقابت شد

در نهايت، گوگل مدل جديد هوش مصنوعي ايمجن ۳ (3 Imagen) خود را معرفي كرد كه در روز پنجشنبه براي همه كاربران امريكايي منتشر شد. گوگل آن را «با كيفيت‌ترين مدل تبديل متن به تصوير» خود مي‌نامد كه اكنون مي‌تواند «جزیيات بهتر، نور غني‌تر و مصنوعات كمتري نسبت به مدل‌هاي قبلي» توليد كند. گوگل همچنين مي‌گويد كه ايمجن ۳ در رندر كردن متن بهتر است و اكنون در نسخه‌هاي مختلفي ارايه مي‌شود.