Автор материала на Habr предлагает конкретную реализацию идеи, которую исследователи AGI обсуждают давно: взять топологию биологического мозга и перенести её на градиентное обучение. Точкой отсчёта служит датасет MNIST — 70 000 изображений рукописных цифр размером 28×28 пикселей. Обычные сети дают на нём 80–98%, специализированные архитектуры — свыше 99%, а человеческий мозг, по приблизительным оценкам, — 99.5–99.7%.

Ключевой структурной единицей служит класс Column — программная модель кортикального столба. В реальной зрительной коре такой столб объединяет 80–120 нейронов, проходящих вертикально через все слои. Автор воспроизводит биологическое соотношение: 80% нейронов возбуждающие (активируются через ReLU, инициализация Kaiming Normal), 20% — тормозящие (Sigmoid, инициализация Xavier Uniform). Тормозящий сигнал масштабируется коэффициентом e_i_ratio и вычитается из возбуждающего — так реализуется баланс возбуждения и торможения (E-I Balance), который в нейробиологии считается основой помехоустойчивой обработки информации. Слой LayerNorm и Dropout замыкают блок.

Тип сетиТочность на MNISTСамосознание / модель мираСкорость обучения
Простые ИИ-сети (CNN, Transformer, Mamba)80–98%НетВысокая
Специализированные ИИ-сети99%+НетВысокая
Человеческий мозг~99.5–99.7%ЕстьГоды
Гибридная (биологическая топология + градиенты)В процессе проверкиЦель архитектурыВысокая (градиенты)

Связи между столбами строятся не случайно и не регулярно, а по модели Small-World Уоттса-Строгатца. Функция make_small_world через библиотеку NetworkX создаёт граф: каждый узел соединён с k ближайшими соседями по кольцу, затем с вероятностью p каждая связь перезаписывается на случайную дальнюю. Результат — матрица смежности, где большинство связей локальные, но есть «длинные» переброски между удалёнными колонками. Именно такая топология, по данным нейробиологических исследований, обеспечивает мозгу высокую эффективность при низком энергопотреблении.

Поверх графа работает класс AttentionGate — механизм внимания, вычисляющий веса входящих сигналов от соседних колонок. Каждая колонка формирует query из своего текущего состояния и сравнивает его с key-векторами соседей; связи, отсутствующие в матрице смежности, маскируются значением −1e9 до softmax. Это позволяет сети динамически усиливать релевантные соседние сигналы — аналог того, как в мозге рекуррентные связи передают информацию как снизу вверх, так и сверху вниз по кортикальным столбам.

Архитектура опирается на пластичность Хебба как концептуальный принцип: синаптические веса усиливаются между одновременно активными нейронами. В искусственной реализации этот принцип воплощается через градиентное обучение, которое автор намеренно сохраняет — именно оно даёт искусственным сетям главное преимущество перед биологическими: скорость. Вся кора человека содержит около 300 млн кортикальных колонок; масштаб реализации в статье, разумеется, меньше, но принцип воспроизведён.

Подход вписывается в более широкое направление нейроморфных вычислений, где исследователи пытаются преодолеть разрыв между эффективностью трансформеров на конкретных задачах и отсутствием у них чего-либо похожего на внутреннюю модель мира. Трансформеры и архитектуры типа Mamba хорошо аппроксимируют паттерны в данных, но не имеют ни самосознания, ни долгосрочной внутренней памяти в биологическом смысле. Биологические мозги обладают этими свойствами, но обучаются годами и ограничены в вычислительной мощности. Гибридный подход — попытка взять лучшее из обоих миров, не жертвуя воспроизводимостью на обычном железе.