
Коротко. На COMPEX 2026 показали не серверы, а готовые решения для локального ИИ. 72 GPU в одной стойке, возможность запустить LLM или инспекцию качества без облака, окупаемость за счёт снижения трафика и задержек. Разбираем, кому брать, на чём экономить и где подвох.
Что произошло
ASUS, Supermicro и AMD привезли на COMPUTEX 2026 стоечные ИИ‑системы. Не концепты, не “скоро в продаже”, а рабочие железки с понятными спецификациями.
Две главные новинки:
ASUS RUC-2000 компактная стойка для офиса или цеха.
AMD Helios 72 GPU в одном кластере, заявлена поддержка NVLink-подобных связей между графическими процессорами.
Суть не в том, что серверы стали мощнее. Суть в смене модели: прошлые годы продавали облако. Сейчас продают локальную ИИ‑фабрику, которая встаёт у вас в помещении и работает без выхода во внешнюю сеть.
Технические детали: что важно для инженера
Теперь к железу. Не “красиво и мощно”, а что реально влияет на внедрение.
1. Количество GPU
72 GPU это не маркетинг. Теоретически позволяет:
запустить LLM на 70B параметров локально с приемлемой скоростью;
параллельно обрабатывать 10–20 видеопотоков с детекцией;
делать инференс без падения производительности при росте нагрузки.
Но есть нюанс. Если возьмёте модель из облака и просто скопируете на 72 GPU она не поедет. Нужно портировать под распределённый инференс. AMD заявляет, что с их связями GPU это проще, чем раньше, но чудес не бывает.
2. Пропускная способность памяти и связь между GPU
Ключевое. Для LLM и видеоаналитики узкое место не флопсы, а то, как быстро GPU обмениваются данными.
Helios позиционируется как система с “человеческой” связкой GPU (аналог NVLink). Если это правда, то модели с тензорным параллелизмом будут работать без лагов.
RUC-2000 компактнее, но для пары-тройки GPU на борту норм. Для 72 берите Helios.
3. Энергопотребление и охлаждение
Про это молчат в рекламных буклетах, но вы скажете спасибо, что я напомнил.
72 GPU + CPU + память + диски это 15–25 кВт на стойку в пике.
Потребуется не просто розетка, а отдельный ввод, возможно, трёхфазное питание.
Охлаждение: не кондиционер, а либо жидкостное (Supermicro как раз везёт такое), либо отдельный ряд с прецизионниками.
Совет: перед заказом позовите электрика и инженера по вентиляции. Плата за электричество это операционные расходы, закладывайте их в расчёт окупаемости.
Софт: где скрыта боль
Железо половина дела. Вторая половина заставить его работать с вашим пайплайном.
Что вас ждёт:
Портирование моделей из PyTorch/TensorFlow под конкретные GPU (особенно если у вас кастомные операторы).
Оптимизация под распределённый инференс model parallelism, pipeline parallelism, настройка буферов.
Драйвера, версии CUDA (или аналога от AMD), контейнеризация, оркестрация (K8s + GPU-операторы).
Что уже есть: Supermicro и ASUS предлагают готовые софтовые наборы (стек драйверов + рантайм + примеры пайплайнов). Это не решит все проблемы, но сократит время с трёх месяцев до двух-трёх недель, если у вас нормальная команда MLOps.
Живой пример с COMPUTEX: один стартап показывал демку для инспекции на линии. С облаком задержка была 400 мс. На локальном Helios 40–60 мс. Разница в 5–10 раз не шутки.
Чек-лист: что сделать, если вы решились
Если после прочтения подумали “надо бы присмотреться”, вот план на завтра.
Посчитайте текущие расходы на облачный ИИ (инференс + хранение + трафик).
Определите максимальную допустимую задержку для вашей задачи (конвейеру нужно
Проверьте помещение: есть ли свободная стойка, питание, охлаждение.
Оцените команду: кто будет портировать модели и настраивать распределённый инференс. Если никого посмотрите на готовые решения ASUS/Supermicro с предустановленным софтом.
Возьмите одну стойку (не 72 GPU, а поменьше) как пилот. Обкатайте 2–3 месяца на одном участке.
Если всё ок масштабируйте.
Резюме для директора по IT (для подписи в заявке)
COMPUTEX 2026 показал, что рынок созрел для локальных ИИ‑фабрик. ASUS, AMD и Supermicro предлагают не просто серверы, а готовые кластеры от 2 до 72 GPU с заявленной поддержкой высокоскоростных связей. Это решает три проблемы облака: задержки, приватность данных и растущие расходы при масштабировании.
Но железо не волшебное. Потребуется нормальное охлаждение, электричество и команда, которая подружит модели с распределённой архитектурой. Если у вас большой объём инференса (тысячи запросов в минуту) или требования к задержке
Главный вывод: локальные ИИ‑фабрики не замена облака, а инструмент для конкретных задач. Технология дозрела. Теперь вопрос в математике вашего бизнеса.
Источник