تجربه کنترل بیشتر با قابلیتهای جدید «پیشنمایش صدا» و «توقف» در VisionStory
Jan 11, 2025

ارائه محتوای ویدیویی با کیفیت بالا اغلب به جزئیات کوچک بستگی دارد—مانند نحوه تلفظ یک واژه یا زمانبندی یک مکث تاثیرگذار. با افتخار دو قابلیت جدید پیشنمایش صدا و توقف را معرفی میکنیم که دقت و انعطاف بیشتری را پیش از تولید نهایی ویدیو در اختیار شما قرار میدهد.
چرا پیشنمایش صدا؟
پیشنمایش صدا یک تحول بزرگ برای کاربرانی است که میخواهند مطمئن شوند تبدیل متن به گفتار (TTS) دقیقاً همانطور که انتظار دارند اجرا میشود، پیش از آنکه اعتبارهای خود را برای تولید ویدیو مصرف کنند. پیشتر، پس از نوشتن متن، مستقیماً به مرحله تولید ویدیو میرفتید و فرصت زیادی برای اصلاحات جزئی وجود نداشت—و اگر اشتباهی را متوجه میشدید، اعتبار شما مصرف شده بود. با پیشنمایش صدا میتوانید:
- بررسی تلفظ و لحن
به کل فایل صوتی تولید شده از متن خود گوش دهید و مطمئن شوید با سبک دلخواه شما مطابقت دارد. - صرفهجویی در اعتبار
با شناسایی خطاها پیش از تولید ویدیو، از مصرف بیمورد اعتبار جلوگیری کنید. - جلوگیری از نویزهای صوتی
هنگام تولید همزمان صدا و ویدیو (streaming pipeline)، برخی صداهای هوش مصنوعی ممکن است در ابتدا یا انتها دچار نوسان حجم شوند. با استفاده از پیشنمایش صدا، میتوانید این مشکلات را شناسایی و نتیجه نهایی را حرفهایتر کنید.
نکات مهم و ملاحظات متنی: با وجود پیشرفتهای چشمگیر TTS، برخی پیچیدگیها همچنان چالشبرانگیز هستند. به موارد زیر توجه ویژه داشته باشید:
- اصطلاحات تخصصی یا فنی: واژگان پزشکی، حقوقی یا علمی ممکن است نیاز به نشانهگذاری یا اصلاح املایی داشته باشند.
- اختصارات: مطمئن شوید که TTS آنها را بهدرستی تلفظ یا گسترش میدهد.
- ارز و اعداد: راوی ممکن است اعداد را به فرم غیرمنتظره بخواند یا نمادهای ارزی را نادیده بگیرد.
- نشانهگذاری سنگین: نقطه، ویرگول و دو نقطه میتوانند بر لحن و مکث تاثیر بگذارند.
در صورت مشاهده هرگونه مشکل، کافیست متن خود را اصلاح کنید، مجدداً پیشنمایش صدا بگیرید و پس از اطمینان از صحت، روی «تولید ویدیوی سخنگو» کلیک کنید.
معرفی قابلیت توقف (Pause)
گاهی اوقات برای ایجاد تاثیر بیشتر، تاکید بر یک عبارت یا مدیریت دقیق تلفظ واژههای دشوار، نیاز به مکث دارید. قابلیت جدید توقف—که از طریق آیکون «⏱ +0.5» در دسترس است—به شما امکان میدهد هر جا که لازم است، یک مکث کوتاه در متن خود قرار دهید. برای مکث طولانیتر، کافیست چندین آیکون توقف را پشت سر هم قرار دهید. این مکث دستی میتواند:
- افزایش وضوح: جملات طولانی را به بخشهای قابل فهمتر تقسیم کند تا شنونده بهتر متوجه شود.
- تاکید بیشتر: پیش از بیان نکته کلیدی یا شوخی، انتظار ایجاد کند.
- کنترل مکثهای TTS: اگر موتور TTS در جای مناسب مکث نمیکند یا مکث ناخواسته ایجاد میکند، با افزودن مکث دستی، روایت را مطابق میل خود تنظیم کنید.
نکات مهم
پیشنمایش صدا بر اساس سهمیه کاراکتری عمل میکند که ماهانه و بر اساس سطح اشتراک شما بازنشانی میشود. به طور تقریبی، هر ۱ دقیقه گفتار معادل ۱۰۰۰ کاراکتر است:
- پرو: ۱۰,۰۰۰ کاراکتر (~۱۰ دقیقه صدا)
- پیشرفته: ۵۰,۰۰۰ کاراکتر (~۵۰ دقیقه صدا)
- اولترا: ۱۰۰,۰۰۰ کاراکتر (~۱۰۰ دقیقه صدا)
نکات مربوط به قابلیت توقف (Stopwatch):
- هر آیکون توقف معادل ۰.۵ ثانیه مکث است و میتوانید آنها را پشت سر هم برای مکث طولانیتر (تا حداکثر ۳ ثانیه) استفاده کنید.
- یادآوری: از قرار دادن بیش از دو مکث متوالی در یک بخش از متن خودداری کنید، زیرا ممکن است باعث ایجاد صداهای غیرمنتظره یا نویز توسط هوش مصنوعی شود.
موارد استفاده و مزایای واقعی
- بازاریابی و تبلیغات
بازاریابان برای جلب توجه، از جملات کوتاه و تاثیرگذار همراه با مکثهای بهموقع استفاده میکنند. اکنون میتوانید پیام برند خود را بهینه و انواع اجرای جملات را بدون هدر رفت اعتبار امتحان کنید. - آموزش و ویدیوهای آموزشی
اصطلاحات پیچیده یا اختصارات در محتوای آموزشی رایج است. بهسرعت میتوانید نحوه خواندن آنها را بررسی، مکث مناسب اضافه و اطمینان حاصل کنید که یادگیرندگان بهراحتی مطالب را دنبال میکنند. - داستانگویی و روایت
روایتهای دراماتیک به زمانبندی دقیق نیاز دارند. یک مکث بهجا میتواند تعلیق یا احساسات را منتقل کند—چیزی که همیشه با مکث خودکار TTS بهدست نمیآید. - ارائههای حرفهای
هنگام ارائه نکات مهم—مثلاً در گزارشهای مالی یا ارائههای شرکتی—تلفظ اشتباه نامها یا اعداد میتواند اعتبار شما را زیر سوال ببرد. پیشنمایش و افزودن مکث، صدایی روان و حرفهای را تضمین میکند.