فناوری

ابزار هوش مصنوعی Kling 2.6 قابلیت‌های جدید صوتی دریافت کرد + ویدیو

شرکت چینی Kuaishou نسخه جدید ابزار هوش مصنوعی Kling 2.6 را با قابلیت کنترل صوتی پیشرفته و ارتقای دقت حرکتی برای تولید ویدیوهای واقع‌گرایانه و رقابت با غول‌های فناوری جهان معرفی کرد.

به گزارش سرویس فناوری مگ دید، ویژگی جدید کنترل صوتی بر پایه تولید هم‌زمان صدا و تصویر ساخته شده است، که Kling 2.6 به تازگی آن را معرفی کرده بود. این مدل مانند Veo 3 متعلق به گوگل یا Sora 2 می‌تواند جلوه‌های صوتی متناسب با محتوای ویدیو، از جمله صدا و موسیقی را تولید کند.

طبق اعلام Kling AI، این قابلیت از انواع مختلف صداهای انسانی شامل صحبت کردن، دیالوگ، روایت، آواز و رپ پشتیبانی می‌کند. همچنین نویزهای محیطی و صداهای صحنه‌های ترکیبی را مدیریت می‌نماید. این مدل هم توضیحات متنی خالص و هم ترکیبی از متن و تصاویر را به عنوان ورودی می‌پذیرد. Kling AI کاربردهای متعددی را برای آن متصور است، که از جمله آنها می‌توان به دموهای محصول، ولاگ‌های سبک زندگی، پخش اخبار، گزارش‌های ورزشی، مستندها، مصاحبه‌ها، فیلم‌های کوتاه درام و اجراهای موسیقی شامل آواز و حتی گروه‌های کر چندصدایی اشاره کرد.

بر اساس گزارش the-decoder، ویژگی جدید کنترل صوتی در ابزار هوش مصنوعی Kling 2.6 به کاربران اجازه می‌دهد صداهای خود را برای آموزش یک مدل بارگذاری کنند. همچنین آنها می‌توانند یک فایل صوتی را به طور مستقیم آپلود نمایند. سپس صدای آموزش‌دیده یا بارگذاری‌شده می‌تواند در تولیدات متن به ویدیو اعمال شود. این کار تداوم شخصیت را بهبود می‌بخشد؛ اکنون شخصیت‌ها می‌توانند در ویدیوهای تولیدشده با صدایی مشخص و قابل شناسایی صحبت کنند، که ایجاد شخصیت‌های ثابت در چندین کلیپ ویدیویی را ممکن می‌سازد.

دومین ویژگی بزرگ، ارتقای کنترل حرکت است. سیستم اکنون حرکات کل بدن را با جزئیات بیشتری ثبت می‌کند. حتی اقدامات سریع و پیچیده مانند هنرهای رزمی یا رقص باید با دقت بیشتری پردازش شوند. شرکت Kuaishou به ویژه بر بهبود در دو زمینه‌ای تأکید کرده است که ویدیوهای هوش مصنوعی معمولاً در آنها با مشکل مواجه هستند، حرکات دست اکنون باید دقیق و بدون تاری ظاهر شوند، در حالی که حالات چهره و هماهنگی لب‌ها باید طبیعی باقی بمانند.

ابزار هوش مصنوعی Kling 2.6 با قابلیت‌های جدید صوتی عرضه شد

ابزار هوش مصنوعی Kling 2.6 علاوه بر پلتفرم اختصاصی خود، از طریق ارائه‌دهندگان ثالث مانند Fal.ai، Artlist و Media.io نیز در دسترس است. قیمت‌گذاری از طریق این ارائه‌دهندگان حدود 0.07 تا 0.14 دلار به ازای هر ثانیه ویدیو است، که نرخ‌های بسیار رقابتی محسوب می‌شوند. شرکت Kuaishou با این ویژگی‌های جدید در بازاری شلوغ با بازیگران غربی مانند Google، OpenAI و Runway، همچنین رقبای چینی از جمله Hailuo، Seedance و Vidu رقابت می‌کند. این شرکت مالک Kwai است که دسترسی به حجم عظیمی از داده‌های صوتی و تصویری را فراهم می‌کند.

Source link

تیم تحریریه مگ دید

تیم تحریریه magdid.ir با هدف ارائه محتوای دقیق، به‌روز و جذاب در حوزه‌های مختلف، تلاش می‌کند تجربه‌ای مفید و الهام‌بخش برای خوانندگان فراهم کند. این تیم متشکل از نویسندگان و متخصصانی است که با تحقیق و بررسی دقیق، مطالب آموزشی، خبری و تحلیلی را با زبان ساده و قابل فهم به مخاطب ارائه می‌دهند. تعهد ما، اطلاع‌رسانی صادقانه و ارتقای دانش و آگاهی جامعه است.

نوشته های مشابه

دکمه بازگشت به بالا