فناوری

معماری جدید دیپ سیک چگونه هزینه‌های هوش مصنوعی را در سال ۲۰۲۶ مهار می‌کند؟

شرکت پیشرو «دیپ سیک» با معرفی روش mHC، راهکاری برای یکی از پرهزینه‌ترین چالش‌های دنیای فناوری یافته است: جلوگیری از اتلاف انرژی و زمان در فرآیند آموزش مدل‌های غول‌آسا.

به گزارش سرویس هوش‌مصنوعی مگ دید، با آغاز سال ۲۰۲۶، رقابت در دنیای هوش مصنوعی از فاز «بزرگ‌تر کردن مدل‌ها» به فاز «بهینه‌سازی فرآیندها» تغییر جهت داده است. شرکت دیپ‌سیک (DeepSeek)، که به نوآوری‌های زیرساختی شهرت دارد، در جدیدترین مقاله پژوهشی خود از معماری جدیدی رونمایی کرد که می‌تواند میلیاردها دلار در هزینه‌های محاسباتی و انرژی صرفه‌جویی کند.

این روش که با نام «هایپرکانکشن با محدودیت منیفولد» (mHC) معرفی شده، پاسخی به یکی از بزرگ‌ترین دردهای توسعه‌دهندگان هوش مصنوعی است: ناپایداری و شکست در حین آموزش.

تا به امروز، آموزش مدل‌های زبانی بزرگ (LLM) شباهت زیادی به یک قمار پرریسک داشت. بسیاری از این مدل‌ها در میانه فرآیند آموزش، به دلیل ناپایداری‌های ریاضی دچار شکست (Crash) می‌شوند. این اتفاق به معنای نابودی هفته‌ها تلاش شبانه‌روزی، هدررفت مقادیر عظیمی از الکتریسیته و اشغال هزاران ساعت از توان پردازنده‌های گرافیکی (GPU) گران‌قیمت است.

گزارش‌ها نشان می‌دهند که شرکت‌های بزرگ پیش از این مجبور بودند در صورت بروز چنین خطاهایی، فرآیند را از صفر شروع کنند؛ موضوعی که نه تنها هزینه‌ها را دوچندان می‌کرد، بلکه ردپای کربنی هوش مصنوعی را به شدت افزایش می‌داد.

ایده اصلی پشت معماری mHC دی‌پسیک، فراتر از افزایش قدرت عملکرد است. هدف این روش، «پیش‌بینی‌پذیر» کردن رفتار مدل‌ها در زمان بزرگ شدن است.
به زبان ساده، این تکنولوژی اجازه نمی‌دهد که مدل در حین یادگیری از مسیر منطقی خود خارج شود. با حفظ پایداری ساختاری، مدل‌ها می‌توانند بدون نیاز به نظارت مستمر و بدون ریسک فروپاشی، مراحل آموزش را تا انتها طی کنند.

اسکرین‌شات از وب‌سایت Hugging Face که مقاله‌ای با عنوان "mHC: Manifold-Constrained Hyper-Connections" منتشر شده در ۳۱ دسامبر ۲۰۲۵ را نشان می‌دهد.

مزایای کلیدی این معماری عبارتند از:

  • کاهش چشمگیر اتلاف انرژی: با حذف نیاز به شروع مجدد (Restart)، کل انرژی مصرفی برای رسیدن به یک مدل نهایی کاهش می‌یابد.
  • بهره‌وری از سخت‌افزار موجود: به جای اضافه کردن هزاران پردازنده جدید (روش Brute Force)، از همان توان پردازشی فعلی استفاده بهینه‌تری می‌شود.
  • تسهیل مقیاس‌پذیری: توسعه‌دهندگان اکنون می‌توانند با اطمینان بیشتری مدل‌های بزرگ‌تر بسازند، بدون اینکه نگران رفتارهای غیرقابل پیش‌بینی در مقیاس‌های عظیم باشند.

پژوهشگران دیپ‌سیک تاکید کرده‌اند که این روش قرار نیست مشکل کمبود جهانی تراشه را یک‌شبه حل کند، اما می‌تواند فشار را از روی مراکز داده بردارد. در واقع، mHC به معنای «انجام کارهای بیشتر با منابع کمتر» است.

به نقل از گیزموچاینا، کارشناسان معتقدند در سال ۲۰۲۶، برنده رقابت هوش مصنوعی شرکتی نیست که بیشترین پردازنده گرافیکی را در اختیار دارد، بلکه شرکتی است که می‌تواند مدل‌های خود را با کمترین میزان خطا و کمترین ساعت محاسباتی تلف‌شده به مرحله بهره‌برداری برساند.

با معرفی این معماری جدید توسط DeepSeek، حالا توپ در زمین رقباست تا نشان دهند چگونه می‌خواهند با هزینه‌های کمرشکن و اشتهای سیری‌ناپذیر مدل‌های هوش مصنوعی برای مصرف انرژی مقابله کنند.

Source link

تیم تحریریه مگ دید

تیم تحریریه magdid.ir با هدف ارائه محتوای دقیق، به‌روز و جذاب در حوزه‌های مختلف، تلاش می‌کند تجربه‌ای مفید و الهام‌بخش برای خوانندگان فراهم کند. این تیم متشکل از نویسندگان و متخصصانی است که با تحقیق و بررسی دقیق، مطالب آموزشی، خبری و تحلیلی را با زبان ساده و قابل فهم به مخاطب ارائه می‌دهند. تعهد ما، اطلاع‌رسانی صادقانه و ارتقای دانش و آگاهی جامعه است.

نوشته های مشابه

دکمه بازگشت به بالا