ГлавнаяНовостиНастоящим узким местом искусственного интеллекта является не вычислительная мощность, а перемещение данных. Решением становятся вычисления в памяти

Настоящим узким местом искусственного интеллекта является не вычислительная мощность, а перемещение данных. Решением становятся вычисления в памяти

Настоящим узким местом искусственного интеллекта является не вычислительная мощность, а перемещение данных. Решением становятся вычисления в памяти


За последние два года почти все дискуссии об ИИ были сосредоточены на вычислительной мощности: нехватке графических процессоров, недостаточной вычислительной мощности и недостаточном размере кластеров.Кажется, что увеличение вычислительной мощности решит любую проблему.

Но в этом отчете снова и снова подчеркивается один важный момент: Что действительно замедляет ИИ, так это не неспособность выполнять вычисления, а неспособность эффективно перемещать данные.

Одна статистика проясняет проблему: Чтение данных из DRAM потребляет в сотни раз больше энергии, чем из SRAM.Между тем разрыв в производительности между процессорами и памятью увеличивается почти на 50% каждый год.

Большая часть вычислительной мощности, которую мы лихорадочно наращиваем, просто ожидает данных. В этот момент я понял нечто поразительное: Возможно, мы все время искали не то узкое место для ИИ.

Если проблема не в самих вычислениях, а в разделении вычислений и памяти, тогда реальный ответ может быть не в более мощных графических процессорах. Это позволить память сама участвует в вычислениях. Это реальная история, которую призван рассказать этот отчет.

Основная идея отчета

Реальное узкое место вычислительной мощности ИИ смещается от вычислений к памяти, и решение состоит в том, чтобы перенести вычисления в память.

Реальная проблема: эффективность ИИ ограничена перемещением данных

Вычисления ИИ в значительной степени зависят от массивных операций MAC (умножения-накопления) и требуют чрезвычайно большого объема данных. Однако у классической архитектуры фон Неймана есть фатальный недостаток:

  • Разрыв в производительности между процессорами и DRAM продолжает увеличиваться (около 50% в год)
  • Затраты на энергию доступа к памяти намного выше, чем сами вычисления (энергия чтения DRAM ≈ в 100 раз больше, чем у SRAM).

Заключение: ИИ не перестает выполнять вычисления — он не может перемещать данные доступным и достаточно быстрым способом.

Основное противоречие: узкое место фон Неймана

Разделение вычислений и памяти приводит к постоянному перемещению данных, что приводит к двум критическим проблемам:

  • Высокая задержка
  • Взрывное потребление энергии

Именно это в докладе называется Узкое место фон Неймана.

Ключевая тенденция: память становится новым вычислительным центром

Выявляется четкая отраслевая тенденция: Чипы развиваются двумя способами:

  • Встроенная память (SRAM) продолжает расширяться
  • Пропускная способность памяти продолжает расти

Тем временем возникло революционное направление: Вычисления в памяти (IMC).

Его основная идея: Выполняйте логические операции, арифметические вычисления и умножение матриц (ядро искусственного интеллекта) непосредственно в памяти.

Фундаментальный сдвиг: Память = Хранилище → Память = Вычислительная система

Технические пути: от SRAM к новым воспоминаниям

В отчете очерчены несколько путей реализации:

1. SRAM/eDRAM (традиционный путь)
Вычисления в кэше, нейронный кэш
Плюсы: взрослый, высокая скорость.
Ограничения: большая площадь, ограниченная масштабируемость.

2. Возникающая память (основное направление)
В том числе: MRAM, PCM, ReRAM, FeRAM

Общая цель: превратить массивы памяти в матричные механизмы умножения-накопления. с вычислениями на месте и аналоговыми вычислениями (например, текущим суммированием для векторного умножения).

Суть: массив памяти = ускоритель ИИ

Но реальные проблемы остаются: точность и шум, вариации устройств, отклонение веса (особенно в ReRAM) и проблемы с сохранением. Путь жизнеспособен, но чрезвычайно сложен в инженерном плане.

Системное решение: совместная оптимизация аппаратного алгоритма

В отчете подчеркивается, что одного аппаратного обеспечения недостаточно — алгоритмы также должны развиваться.

  • Сжатие модели: обрезка, разреженность, разложение низкого ранга
  • Низкоточные вычисления: бинарные нейронные сети с фиксированной запятой
  • Обучение с учетом аппаратного обеспечения: STE, разреженность битовых срезов

Ключевой вывод: Оптимизация эффективности ИИ требует совместного проектирования архитектуры, устройств и алгоритмов.

Окончательный вывод

  1. Встроенная память стала основным ресурсом систем искусственного интеллекта
  2. Развитие памяти делает интеграцию памяти и вычислений основным направлением
  3. Чипы искусственного интеллекта нового поколения требуют межуровневого совместного проектирования — от устройств до алгоритмов.

Резюме

Узкое место ИИ смещается от «недостаточной вычислительной мощности» к «неспособности перемещать данные достаточно быстро». Ответ для чипов следующего поколения – не более сильные графические процессоры, а память, способная выполнять вычисления сама по себе.