⚡️ В LLM-индустрии намечается реально исторический сдвиг....

Михаил Гарбузенко3 дн. назад490 слов · 2 мин.

TL;DR

⚡️ В LLM-индустрии намечается реально исторический сдвиг. Появился первый прототип нейросети, которая не «угадывает» вычисления, а физически их исполняет. Стартап Percepta выкатил Proof of Concept, от которого сейчас гудит всё AI-комьюнити. Они не просто прикрутили тулзу — ребята вшили виртуальную машину (WASM‑интерпретатор) прямо в веса обычного PyTorch‑трансформера. В чём корень проблемы? Обычные ChatGPT / Claude и прочие LLM по сути не считают математику — они предсказывают следующий токен по статистике корпуса. Отсюда галлюцинации даже в элементарной арифметике и логике. Это сейчас чинят костылями: модель генерит Python, а дальше код гоняется во внешней песочнице / туллинге. Percepta показывают другой путь: трансформер может исполнять сложный машинный код прямо внутри себя и выдавать детерминированный, 100% корректный результат на выбранных задачах (Sudoku, многозначная арифметика). Как это выглядит (чистый киберпанк) Вместо привычного текста модель стримит трассу выполнения программы: токен за токеном идёт машинный код, а attention и MLP‑слои работают как интерпретатор WASM. Нейросеть фактически жонглирует регистрами и ветвлениями, восстанавливая состояние программы из собственной истории. Чтобы продемонстрировать мощность, они «запекли» в веса интерпретатор, который решает одно из самых известных «самых сложных» судоку в мире (пазл Арто Инкалы): модель исполняет бэктрекинг‑алгоритм, подставляет цифры, ловит противоречия, откатывается и находит решение без единой ошибки. Плюс — многозначное сложение с нулём ошибок на миллионах шагов. Все это бежит на CPU со скоростью 30k+ токенов/сек, то есть трасса исполнения кода реально стримится в режиме реального времени. Как они обошли Attention Bottleneck Классический трансформер на каждом шаге вынужден перечитывать всю историю — это делает нормальный детерминированный вычислитель внутри LLM практически невозможным: на миллионном шаге внимание просто утонет в квадратической сложности. Percepta предлагают «Exponentially Fast Attention»: специальный режим декодинга, где поиск нужного состояния в прошлом идёт за логарифмическое время, вместо линейного просмотра всей истории. За счёт 2D‑голов внимания и структуры вроде HullKVCache lookup по трассе выполнения становится O(log n), и модель может прогонять миллионы шагов программы за секунды, не убивая память и латентность. Прямой мост к AGI? В обсуждениях под анонсом уже отметились топовые ресёрчеры и инженеры, включая авторов идей про «LLM как компьютеры». И суть тут вообще не в том, чтобы сделать ещё один быстрый калькулятор. Текущие LLM — это наше быстрое, интуитивное мышление (System 1): эвристики, паттерны, статистика. Жёсткая программа / машинный код — это медленное, детерминированное «System 2», чистая логика и формальный вывод. То, что делает Percepta, — это по сути чертёж, как объединить оба режима в одном «мозгу»: вероятностную модель языка и встроенный, безошибочный вычислительный сопроцессор. Если такой детерминированный интерпретатор научатся бесшовно скрещивать с большими речевыми моделями, мы приблизимся к ИИ, который не галлюцинирует в логике и вычислениях, а опирается на настоящий внутренний компьютер. Агентам не придётся дергать внешние скрипты — тяжёлые симуляции и алгоритмы смогут крутиться прямо внутри весов, в одном непрерывном forward‑pass. Это уже не просто «улучшение чат‑ботов», а очень конкретный технический мост к более сильным формам ИИ. Пока это PoC с аккуратно подобранными задачами и аналитически сконструированными весами (а не чем‑то, обученным градиентным спуском). Но направление обозначено очень ясно. Будем следить 👀👀 Тред с обсуждением: https://x.com/ChristosTzamos/status/2031845134577406426