تجربه کنترل بیشتر با قابلیت‌های جدید «پیش‌نمایش صدا» و «توقف» در VisionStory

Jan 11, 2025

قابلیت پیش‌نمایش صدا و توقف برای تولید محتوای ویدیویی

ارائه محتوای ویدیویی با کیفیت بالا اغلب به جزئیات کوچک بستگی دارد—مانند نحوه تلفظ یک واژه یا زمان‌بندی یک مکث تاثیرگذار. با افتخار دو قابلیت جدید پیش‌نمایش صدا و توقف را معرفی می‌کنیم که دقت و انعطاف بیشتری را پیش از تولید نهایی ویدیو در اختیار شما قرار می‌دهد.

چرا پیش‌نمایش صدا؟

پیش‌نمایش صدا یک تحول بزرگ برای کاربرانی است که می‌خواهند مطمئن شوند تبدیل متن به گفتار (TTS) دقیقاً همانطور که انتظار دارند اجرا می‌شود، پیش از آنکه اعتبارهای خود را برای تولید ویدیو مصرف کنند. پیش‌تر، پس از نوشتن متن، مستقیماً به مرحله تولید ویدیو می‌رفتید و فرصت زیادی برای اصلاحات جزئی وجود نداشت—و اگر اشتباهی را متوجه می‌شدید، اعتبار شما مصرف شده بود. با پیش‌نمایش صدا می‌توانید:

  1. بررسی تلفظ و لحن
    به کل فایل صوتی تولید شده از متن خود گوش دهید و مطمئن شوید با سبک دلخواه شما مطابقت دارد.
  2. صرفه‌جویی در اعتبار
    با شناسایی خطاها پیش از تولید ویدیو، از مصرف بی‌مورد اعتبار جلوگیری کنید.
  3. جلوگیری از نویزهای صوتی
    هنگام تولید همزمان صدا و ویدیو (streaming pipeline)، برخی صداهای هوش مصنوعی ممکن است در ابتدا یا انتها دچار نوسان حجم شوند. با استفاده از پیش‌نمایش صدا، می‌توانید این مشکلات را شناسایی و نتیجه نهایی را حرفه‌ای‌تر کنید.

نکات مهم و ملاحظات متنی: با وجود پیشرفت‌های چشمگیر TTS، برخی پیچیدگی‌ها همچنان چالش‌برانگیز هستند. به موارد زیر توجه ویژه داشته باشید:

  • اصطلاحات تخصصی یا فنی: واژگان پزشکی، حقوقی یا علمی ممکن است نیاز به نشانه‌گذاری یا اصلاح املایی داشته باشند.
  • اختصارات: مطمئن شوید که TTS آن‌ها را به‌درستی تلفظ یا گسترش می‌دهد.
  • ارز و اعداد: راوی ممکن است اعداد را به فرم غیرمنتظره بخواند یا نمادهای ارزی را نادیده بگیرد.
  • نشانه‌گذاری سنگین: نقطه، ویرگول و دو نقطه می‌توانند بر لحن و مکث تاثیر بگذارند.

در صورت مشاهده هرگونه مشکل، کافیست متن خود را اصلاح کنید، مجدداً پیش‌نمایش صدا بگیرید و پس از اطمینان از صحت، روی «تولید ویدیوی سخنگو» کلیک کنید.

معرفی قابلیت توقف (Pause)

گاهی اوقات برای ایجاد تاثیر بیشتر، تاکید بر یک عبارت یا مدیریت دقیق تلفظ واژه‌های دشوار، نیاز به مکث دارید. قابلیت جدید توقف—که از طریق آیکون «⏱ +0.5» در دسترس است—به شما امکان می‌دهد هر جا که لازم است، یک مکث کوتاه در متن خود قرار دهید. برای مکث طولانی‌تر، کافیست چندین آیکون توقف را پشت سر هم قرار دهید. این مکث دستی می‌تواند:

  • افزایش وضوح: جملات طولانی را به بخش‌های قابل فهم‌تر تقسیم کند تا شنونده بهتر متوجه شود.
  • تاکید بیشتر: پیش از بیان نکته کلیدی یا شوخی، انتظار ایجاد کند.
  • کنترل مکث‌های TTS: اگر موتور TTS در جای مناسب مکث نمی‌کند یا مکث ناخواسته ایجاد می‌کند، با افزودن مکث دستی، روایت را مطابق میل خود تنظیم کنید.

نکات مهم

پیش‌نمایش صدا بر اساس سهمیه کاراکتری عمل می‌کند که ماهانه و بر اساس سطح اشتراک شما بازنشانی می‌شود. به طور تقریبی، هر ۱ دقیقه گفتار معادل ۱۰۰۰ کاراکتر است:

  • پرو: ۱۰,۰۰۰ کاراکتر (~۱۰ دقیقه صدا)
  • پیشرفته: ۵۰,۰۰۰ کاراکتر (~۵۰ دقیقه صدا)
  • اولترا: ۱۰۰,۰۰۰ کاراکتر (~۱۰۰ دقیقه صدا)

نکات مربوط به قابلیت توقف (Stopwatch):

  • هر آیکون توقف معادل ۰.۵ ثانیه مکث است و می‌توانید آن‌ها را پشت سر هم برای مکث طولانی‌تر (تا حداکثر ۳ ثانیه) استفاده کنید.
  • یادآوری: از قرار دادن بیش از دو مکث متوالی در یک بخش از متن خودداری کنید، زیرا ممکن است باعث ایجاد صداهای غیرمنتظره یا نویز توسط هوش مصنوعی شود.

موارد استفاده و مزایای واقعی

  • بازاریابی و تبلیغات
    بازاریابان برای جلب توجه، از جملات کوتاه و تاثیرگذار همراه با مکث‌های به‌موقع استفاده می‌کنند. اکنون می‌توانید پیام برند خود را بهینه و انواع اجرای جملات را بدون هدر رفت اعتبار امتحان کنید.
  • آموزش و ویدیوهای آموزشی
    اصطلاحات پیچیده یا اختصارات در محتوای آموزشی رایج است. به‌سرعت می‌توانید نحوه خواندن آن‌ها را بررسی، مکث مناسب اضافه و اطمینان حاصل کنید که یادگیرندگان به‌راحتی مطالب را دنبال می‌کنند.
  • داستان‌گویی و روایت
    روایت‌های دراماتیک به زمان‌بندی دقیق نیاز دارند. یک مکث به‌جا می‌تواند تعلیق یا احساسات را منتقل کند—چیزی که همیشه با مکث خودکار TTS به‌دست نمی‌آید.
  • ارائه‌های حرفه‌ای
    هنگام ارائه نکات مهم—مثلاً در گزارش‌های مالی یا ارائه‌های شرکتی—تلفظ اشتباه نام‌ها یا اعداد می‌تواند اعتبار شما را زیر سوال ببرد. پیش‌نمایش و افزودن مکث، صدایی روان و حرفه‌ای را تضمین می‌کند.