گوگل تمام ابزارهای هوش مصنوعی‌اش را در Gemini Enterprise جمع کرد کشف شواهد جدیدی از وجود اقیانوس باستانی در مریخ چین تبدیل به بزرگ‌ترین تولیدکننده ربات‌های صنعتی جهان شد نمایش شگفت‌انگیز سه دنباله‌دار زمردین در آسمان شب پاییز ۱۴۰۴ + تاریخ و بهترین مکان رصد در ایران قطع دسترسی به اینستاگرام، فیس‌بوک و تیک‌تاک در افغانستان | فیلترینگ گسترده اینترنت توسط طالبان سقف قانونی سود موبایل‌فروشان از فروش گوشی چقدر است؟ برندگان نوبل شیمی ۲۰۲۵ اعلام شدند: مبدعان روش‌های نوآورانه‌ در طراحی و سنتز کاتالیزورهای فعال و پایدار ارزان‌ترین نسخه تسلا مدل Y رونمایی شد | تغییرات جدید برای جذب مشتریان اقتصادی دلایل اصلی خرابی زودهنگام مودم چیست؟ دومین درخشش پیاپی گوگل در نوبل فیزیک | تقدیر از پیشگامان محاسبات کوانتومی سامانه اعتراض آنلاین به جریمه‌های رانندگی راه‌اندازی شد احتمال بروز اختلال موقت در بخشی از شبکه ارتباطی خراسان رضوی در بامداد پنجشنبه (۱۷ مهر ۱۴۰۴) تقدیر اینستاگرام از برترین و نوآورترین محتواسازان با Rings Award ایلان ماسک: سال آینده یک بازی تولیدشده با هوش مصنوعی منتشر خواهیم کرد گوگل برای هک هوش مصنوعی جمینی جایزه ۲۰ هزار دلاری تعیین کرد آیا کابل شارژ هم از جعبه گوشی‌ها حذف خواهد شد؟ برندگان نوبل فیزیک ۲۰۲۵ اعلام شدند: کاشفان تونل‌زنی کوانتومی ماکروسکوپی و کوانتیزاسیون انرژی ChatGPT به ۸۰۰ میلیون کاربر هفتگی رسید | رشد بی‌سابقه در کمتر از دو سال گوگل: با محدودکردن نصب برنامه‌های اندروید از منابع غیررسمی به امنیت کاربران کمک می‌کنیم آیا قطع ارتباط با ماهواره‌های هدهد و کوثر به دلیل خرابکاری بوده است؟ برندگان جایزه نوبل پزشکی ۲۰۲۵ معرفی شدند: کاشفان سلول‌های تنظیم‌کننده سیستم ایمنی بدن
سرخط خبرها

قابلیت‌های هوش مصنوعی Voicebox متا در تبدیل متن به صدا معرفی شد

  • کد خبر: ۱۶۹۷۳۲
  • ۲۷ خرداد ۱۴۰۲ - ۱۳:۲۹
قابلیت‌های هوش مصنوعی Voicebox متا در تبدیل متن به صدا معرفی شد
متا حالا از ابزار هوش مصنوعی مولد جدیدی به نام Voicebox رونمایی کرده است که می‌تواند کار‌های مختلفی نظیر تبدیل متن به صدا، کاهش نویز و ویرایش صدا را انجام دهد.

 به گزارش شهرآرانیوز - یکی از ویژگی‌های مهم هوش مصنوعی Voicebox دریافت نمونه صوتی از یک زبان و تبدیل آن به زبان‌های خارجی است. این ابزار می‌تواند درزمینه تبدیل متن به صدا همان کاری را انجام دهد که ChatGPT و DALL-E درزمینه تولید متن و تصویر انجام می‌دهند.

هوش مصنوعی Voicebox یک مبدل متن به صداست که متا از آن به‌عنوان «یک مدل هماهنگ‌ساز جریان به‌صورت غیرخودکاهنده برای تکمیل صدا براساس زمینه و متن» یاد می‌کند. این مدل روی بیش از ۵۰ هزار ساعت صدای فیتلرنشده تعلیم یافته و متا به‌طور خاص از صدای کتاب‌های صوتی به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی استفاده کرده است.

ازجمله قابلیت‌های مهم این هوش مصنوعی انتقال سبک گفتاری از یک زبان به زبان‌های خارجی دیگر است. برای استفاده از این قابلیت کافیست نمونه‌ای ۲ ثانیه‌ای از صدای خود را به‌همراه یک متن به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی به Voicebox دهید و از هوش مصنوعی بخواهید تا متن را با این زبان‌ها بخواند. این شرکت می‌گوید مدل آن‌ها عملاً می‌تواند هر متنی را از یک زبان به یک زبان دیگر ترجمه کند و شکل گفتاری زبان مقصد را حفظ کند.

قابلیت‌های مدل هوش مصنوعی متا Voicebox

هوش مصنوعی Voicebox می‌تواند متن را به صدا تبدیل کند و به زبان‌های خارجی حرف بزند

دامنه وسیع داده‌های ورودی به این سیستم کمک می‌کند تا صدا‌هایی بسازد که از نظر مکالمه‌ای طبیعی‌ترند. متا می‌گوید: «نتایج ما نشان می‌دهد مدل‌های تشخیص گفتاری که روی صدا‌های ساخته‌شده با Voicebox آموزش داده می‌شوند، تقریباً به‌خوبی مدل‌هایی عمل می‌کنند که با صدا‌های واقعی تعلیم داده شده باشند.» به‌علاوه، صدا‌هایی که توسط کامپیوتر تولید شدند، فقط با ۱ درصد خطای تنزل روبه‌رو بودند، درحالی‌که این نرخ برای سایر مدل‌های تبدیل متن به صدا (TTS) بین ۴۵ تا ۷۰ درصد است.

مدل هوش مصنوعی Voicebox می‌تواند صدا‌ها را ویرایش، نویز را از مکالمات حذف و حتی کلماتی را که اشتباه ادا شده باشند، تصحیح کند. محققان متا می‌گویند برای مثال کاربر می‌تواند تشخیص دهد که کدام بخش از فایل صوتی نویز دارد و بعد از هوش مصنوعی بخواهد تا آن بخش را دوباره تولید کند.

مدل Voicebox به‌لطف روش جدید تعلیم متا موسوم به «هماهنگ‌ساز جریان» (Flow Matching) نیازی به حجم بالایی از داده‌های ورودی ندارد. نتایج بنچمارک‌ها نشان می‌دهد که این هوش مصنوعی از نظر بروز خطا بسیار بهتر از بهترین سیستم‌های تبدیل متن به صدا عمل می‌کند (۱.۹ درصد در مقایسه با ۵.۹ درصد) و سرعت آن هم تا ۲۰ برابر سریع‌تر است.

بااین‌حال، مدل «ویس‌باکس» یا کد منبع آن در اختیار عموم قرار نمی‌گیرد. متا اذعان کرده است که با توجه به ریسک‌های احتمالی فعلاً قصدی برای عرضه عمومی این مدل ندارد. آن‌ها درحال‌حاضر صرفاً مقاله تحقیقاتی مقدماتی این مدل را منتشر کرده‌اند، اما امیدوارند که در آینده بتوانند از این فناوری برای کمک به افرادی که تار‌های صوتی‌شان دچار مشکل شده است، NPC‌های درون بازی‌ها و دستیار‌های صوتی استفاده کنند.

منبع: دیجیاتو

گزارش خطا
ارسال نظرات
دیدگاه های ارسال شده توسط شما، پس از تائید توسط شهرآرانیوز در سایت منتشر خواهد شد.
نظراتی که حاوی توهین و افترا باشد منتشر نخواهد شد.
پربازدید
آخرین اخبار پربازدیدها چند رسانه ای عکس
{*Start Google Analytics Code*} <-- End Google Analytics Code -->