پيشرفت ۳ هوش مصنوعي بزرگ در توليد تصاوير
مدتي است كه با تصاوير توليدشده توسط هوش مصنوعي زندگي ميكنيم، اما اين هفته، برخي از بازيگران اصلي اين حوزه، گامهاي بزرگي رو به جلو برداشتهاند. بهطور خاص در اينجا در مورد بهروزرسانيهاي مهم ميدجرني (Midjourney)، مدل جديد گوگل و گروك (Grok) صحبت ميكنيم. به گزارش ايسنا، هر يك از شركتها نشان ميدهند كه فناوري با سرعت و در جهات مختلف در حال تكامل است و هر شركت نشان ميدهد كه پيشرفتها تا كجا پيش رفته است.
مدتي است كه با تصاوير توليدشده توسط هوش مصنوعي زندگي ميكنيم، اما اين هفته، برخي از بازيگران اصلي اين حوزه، گامهاي بزرگي رو به جلو برداشتهاند. بهطور خاص در اينجا در مورد بهروزرسانيهاي مهم ميدجرني (Midjourney)، مدل جديد گوگل و گروك (Grok) صحبت ميكنيم. به گزارش ايسنا، هر يك از شركتها نشان ميدهند كه فناوري با سرعت و در جهات مختلف در حال تكامل است و هر شركت نشان ميدهد كه پيشرفتها تا كجا پيش رفته است. به نقل از ديجيتالترندز، با ميدجرني (Midjourney) شروع كنيم كه بي سر و صدا يك ويرايشگر وب جديد را اواخر روز پنجشنبه منتشر كرده است كه تعدادي از ابزارهاي مفيد دستكاري تصوير را در يك رابط كاربري جمع ميكند. پيش از اين، عملكردهايي مانند قاب بندي مجدد، رنگ آميزي مجدد گسترش مرزهاي تصوير و توليد محتوا براي پر كردن آن و بزرگنمايي همگي نياز به ابزار خاص خود داشتند و در چندين فهرست قرار گرفته بودند و از سازندگان خواسته ميشد كه دائما بين اين فهرستها جابهجا شوند. اين رابط كاربري جديد فرآيند ويرايش منسجمتر و سادهتري را ارائه ميدهد. به گفته ديويد هولز (David Holz) مدير عامل ميدجرني در ديسكورد، ويرايشگر وب جديد به گونهاي طراحي شده است كه ويرايش تصاوير توليد شده با هوش مصنوعي را آسانتر و بدون مشكلتر ميكند. او نوشت: ما فكر ميكنيم كه اين كار ويرايش تصاوير را بسيار راحتتر از قبل ميكند و گام بزرگي رو به جلو است. اين شركت همچنين ابزار گزينش جديدي را معرفي كرده است كه مانند يك قلمموی ديجيتال كار ميكند و جايگزين ابزار انتخاب مربعي و بيضي ميشود. ويرايشگر جديد براي همه كاربران ميدجرني كه پيش از اين بيش از ۱۰ تصوير روي پلتفرم توليد كردهاند، در دسترس است. واكنشهاي اوليه از سوي جامعه تا حد زيادي مثبت بوده است. اين ويرايشگر دو هفته پس از انتشار ميدجرني ۶.۱ ارايه ميشود كه كيفيت و انسجام تصوير مانند تعداد صحيح انگشتان و همچنين زمان پردازش و درك دقت متن را بهطور قابل توجهي بهبود بخشيد.
گروك-۲ (Grok-2) هيولا را آزاد ميكند
بهروزرساني ميدجرني نيز تنها دو روز پس از انتشار گروك-۲ توسط استارتآپ xAI ايلان ماسك ارائه ميشود كه اتفاق بزرگ بعدي اين هفته است. محبوبيت قابليتهاي توليد تصوير گروك به دليل كيفيت تصوير چشمگير و قابليت استفاده رايگان، به سرعت در حال افزايش است. بزرگترين بحث در مورد گروك-۲ فقط كيفيت آن نيست، بلكه دستورالعملهاي ظاهرا تعريف نشده آن است. برخلاف بسياري از توليدكنندههاي تصوير هوش مصنوعي، به نظر ميرسد گروك-۲ از نظر دستورالعملهاي مربوط به مالكيت معنوي، خشونت و ساير محتواها چيز كمي براي گفتن دارد. مردم پيش از اين محدوديتهاي آن را آزمايش كردهاند و انواع تصاوير وحشتناك و عجيب و غريب را ايجاد كردهاند كه روزهاي اوليه توليد تصوير هوش مصنوعي را تداعي ميكند. اما اگر به سخنان ماسك اعتقاد داريد، فقدان دستورالعملهاي گروك-۲ هدفمند به نظر ميرسد و در نهايت ميتواند به چگونگي تكامل اين فناوري در آينده شكل بدهد.
گوگل با ايمجن ۳ (Imagen 3) خود وارد رقابت شد
در نهايت، گوگل مدل جديد هوش مصنوعي ايمجن ۳ (3 Imagen) خود را معرفي كرد كه در روز پنجشنبه براي همه كاربران امريكايي منتشر شد. گوگل آن را «با كيفيتترين مدل تبديل متن به تصوير» خود مينامد كه اكنون ميتواند «جزیيات بهتر، نور غنيتر و مصنوعات كمتري نسبت به مدلهاي قبلي» توليد كند. گوگل همچنين ميگويد كه ايمجن ۳ در رندر كردن متن بهتر است و اكنون در نسخههاي مختلفي ارايه ميشود.