هوش مصنوعي صداي افراد را شبيه‌سازي مي‌كند

۱۴۰۳/۱۲/۰۱ - ۰۱:۱۴:۴۶
|
کد خبر: ۳۳۴۶۷۹

يك مدل هوش مصنوعي ابداع شده كه با كليپ چندثانيه‌اي از صداي فرد آن را شبيه‌سازي مي‌كند.

يك مدل هوش مصنوعي ابداع شده كه با كليپ چندثانيه‌اي از صداي فرد آن را شبيه‌سازي مي‌كند. به گزارش مهر به نقل از رجيستر، يك استارت آپ امريكايي به نام Zyphra از يك مدل هوش مصنوعي متن به گفتار (TTS) رونمايي كرده كه مي‌تواند با دريافت نمونه صوتي ۵ ثانيه‌اي از فرد، صداي او را شبيه‌سازي كند. دني مارتينلي و كريتيك پوتالات اين استارت آپ را در ۲۰۲۱ ميلادي با هدف ساخت يك سيستم عامل چند حالتي به نام MaiaOS راه‌اندازي كردند. اين نتيجه اين تلاش‌ها به شكل عرضه خانواده مدل‌هاي زباني كوچك Zamba و اكنون عرضه مدل‌هاي متن به گفتار Zonos نمايش داده شده است. هر يك از اين مدل‌ها ۱.۶ ميليارد پارامتر دارند و براساس ۲۰۰ هزار ساعت داده گفتاري شامل حرف زدن با لحن صداي خنثي مانند خوانش كتاب صوتي و همچنين گفتار با لحن احساسي آموزش ديدند. بخش اعظم داده‌هاي آموزشي آن به زبان انگليسي بوده اما مقدار زيادي داده به زبان چيني، ژاپني، فرانسوي، اسپانيايي و آلماني نيز بين اين موارد وجود داشته است.