هوش مصنوعي صداي افراد را شبيهسازي ميكند
يك مدل هوش مصنوعي ابداع شده كه با كليپ چندثانيهاي از صداي فرد آن را شبيهسازي ميكند.
يك مدل هوش مصنوعي ابداع شده كه با كليپ چندثانيهاي از صداي فرد آن را شبيهسازي ميكند. به گزارش مهر به نقل از رجيستر، يك استارت آپ امريكايي به نام Zyphra از يك مدل هوش مصنوعي متن به گفتار (TTS) رونمايي كرده كه ميتواند با دريافت نمونه صوتي ۵ ثانيهاي از فرد، صداي او را شبيهسازي كند. دني مارتينلي و كريتيك پوتالات اين استارت آپ را در ۲۰۲۱ ميلادي با هدف ساخت يك سيستم عامل چند حالتي به نام MaiaOS راهاندازي كردند. اين نتيجه اين تلاشها به شكل عرضه خانواده مدلهاي زباني كوچك Zamba و اكنون عرضه مدلهاي متن به گفتار Zonos نمايش داده شده است. هر يك از اين مدلها ۱.۶ ميليارد پارامتر دارند و براساس ۲۰۰ هزار ساعت داده گفتاري شامل حرف زدن با لحن صداي خنثي مانند خوانش كتاب صوتي و همچنين گفتار با لحن احساسي آموزش ديدند. بخش اعظم دادههاي آموزشي آن به زبان انگليسي بوده اما مقدار زيادي داده به زبان چيني، ژاپني، فرانسوي، اسپانيايي و آلماني نيز بين اين موارد وجود داشته است.