За последние два года почти все дискуссии об ИИ были сосредоточены на вычислительной мощности: нехватке графических процессоров, недостаточной вычислительной мощности и недостаточном размере кластеров.Кажется, что увеличение вычислительной мощности решит любую проблему.
Но в этом отчете снова и снова подчеркивается один важный момент: Что действительно замедляет ИИ, так это не неспособность выполнять вычисления, а неспособность эффективно перемещать данные.
Одна статистика проясняет проблему: Чтение данных из DRAM потребляет в сотни раз больше энергии, чем из SRAM.Между тем разрыв в производительности между процессорами и памятью увеличивается почти на 50% каждый год.
Большая часть вычислительной мощности, которую мы лихорадочно наращиваем, просто ожидает данных. В этот момент я понял нечто поразительное: Возможно, мы все время искали не то узкое место для ИИ.
Если проблема не в самих вычислениях, а в разделении вычислений и памяти, тогда реальный ответ может быть не в более мощных графических процессорах. Это позволить память сама участвует в вычислениях. Это реальная история, которую призван рассказать этот отчет.
Реальное узкое место вычислительной мощности ИИ смещается от вычислений к памяти, и решение состоит в том, чтобы перенести вычисления в память.
Вычисления ИИ в значительной степени зависят от массивных операций MAC (умножения-накопления) и требуют чрезвычайно большого объема данных. Однако у классической архитектуры фон Неймана есть фатальный недостаток:
Заключение: ИИ не перестает выполнять вычисления — он не может перемещать данные доступным и достаточно быстрым способом.
Разделение вычислений и памяти приводит к постоянному перемещению данных, что приводит к двум критическим проблемам:
Именно это в докладе называется Узкое место фон Неймана.
Выявляется четкая отраслевая тенденция: Чипы развиваются двумя способами:
Тем временем возникло революционное направление: Вычисления в памяти (IMC).
Его основная идея: Выполняйте логические операции, арифметические вычисления и умножение матриц (ядро искусственного интеллекта) непосредственно в памяти.
Фундаментальный сдвиг: Память = Хранилище → Память = Вычислительная система
В отчете очерчены несколько путей реализации:
1. SRAM/eDRAM (традиционный путь)
Вычисления в кэше, нейронный кэш
Плюсы: взрослый, высокая скорость.
Ограничения: большая площадь, ограниченная масштабируемость.
2. Возникающая память (основное направление)
В том числе:
MRAM, PCM, ReRAM, FeRAM
Общая цель: превратить массивы памяти в матричные механизмы умножения-накопления. с вычислениями на месте и аналоговыми вычислениями (например, текущим суммированием для векторного умножения).
Суть: массив памяти = ускоритель ИИ
Но реальные проблемы остаются: точность и шум, вариации устройств, отклонение веса (особенно в ReRAM) и проблемы с сохранением. Путь жизнеспособен, но чрезвычайно сложен в инженерном плане.
В отчете подчеркивается, что одного аппаратного обеспечения недостаточно — алгоритмы также должны развиваться.
Ключевой вывод: Оптимизация эффективности ИИ требует совместного проектирования архитектуры, устройств и алгоритмов.
Узкое место ИИ смещается от «недостаточной вычислительной мощности» к «неспособности перемещать данные достаточно быстро». Ответ для чипов следующего поколения – не более сильные графические процессоры, а память, способная выполнять вычисления сама по себе.