Агент выдал убедительный анализ прошедшего месяца — связный текст, аккуратные выводы. Проблема выяснилась позже: большую часть дневниковых файлов он не читал. Они лежали на том же диске, но в анализ попали лишь случайные фрагменты, остальное модель достроила самостоятельно — и сделала это так гладко, что автор почти не заметил подмены. Этот момент стал центральным наблюдением четырёхмесячного эксперимента: в персональных системах с историческими данными архитектура памяти важнее выбора LLM.
Эксперимент начался не с технологии, а с банальной проблемы — предыдущие дневники умирали через несколько недель. Бумажные блокноты, Notion, приложения-трекеры давали один и тот же сценарий: первые дни интересно, потом пропуск, потом долг за два дня, потом дневник начинает ассоциироваться не с осознанностью, а с невыполненной обязанностью. Решением стало убрать трение до минимума: Telegram уже открыт десятки раз в день, голосовое сообщение не требует формулировать идеальную запись. В 21:00 телефон вибрирует, пользователь зажимает кнопку записи и сорок секунд говорит как есть — про сон, энергию, тренировку, работу. Через месяц интерес к новому инструменту прошёл, а ритуал остался. Именно это автор считает признаком того, что система прижилась.
| Компонент | Конфигурация |
|---|---|
| CPU | Intel Core i7-8750H, 6 ядер / 12 потоков |
| GPU | GTX 1060 Mobile, 6 GB VRAM |
| RAM | 16 GB |
| OS | Ubuntu 24.04 LTS |
Аппаратная основа системы — Xiaomi Mi Gaming Laptop 2019 года с процессором Intel Core i7-8750H, GTX 1060 Mobile на 6 GB VRAM и 16 GB оперативной памяти под управлением Ubuntu 24.04. С 2021 года ноутбук простаивал; в начале 2026-го его решили не покупать отдельный сервер, а задействовать то, что уже есть. Для домашнего сервера конфигурация оказалась удобной: работает достаточно тихо, встроенная батарея переживает короткие отключения питания, а GTX 1060 ускоряет распознавание речи. Полноценным ИБП это не считается — батарея не защищает роутер и не заменяет контролируемое завершение работы.
Архитектура намеренно распределена по задачам. Голос распознаёт faster-whisper 1.2.1 с моделью medium локально — без отправки аудио в облако. Текст приводит к единому формату недорогая модель DeepSeek через API. Скриншоты разбирает отдельная vision-модель. Всё это связывает Hermes Agent от Nous Research — open-source фреймворк, который принимает сообщения, вызывает модели и запускает инструменты. Отдельного HTTP-сервиса между Hermes и Whisper нет: faster-whisper установлен как зависимость в Python-окружение и вызывается напрямую. Доступ к боту — только по allowlist в Telegram.
Производительность распознавания на GTX 1060: 22 секунды аудио обрабатываются за 2,17 секунды — примерно в десять раз быстрее реального времени. Автор оговаривается, что это единичный замер, зависящий от аудио и нагрузки, но для дневника важнее другое: ждать приходится секунды, а не минуту. GPU при этом не обязателен — faster-whisper работает и на CPU, просто медленнее. На 7 июня 2026 года процесс Hermes работал без перезапуска 35 дней, занимал около 5,7 ГБ памяти и накопил 6 часов 27 минут процессорного времени.
Каждая запись хранится в отдельном Markdown-файле с YAML frontmatter: дата, часы сна, энергия, настроение, стресс, теги. Ниже — аккуратная сводка и раздел Raw с исходным текстом голосового сообщения. Исходник принципиально нельзя заменять пересказом модели: анализ можно сделать заново, потерянный текст — нет. Повторное сообщение за тот же день обновляет существующий файл, а не создаёт дубликат. Данные из скриншотов получают пометку needs_review: true и требуют ручного подтверждения. Шкалы настроения, энергии и стресса зафиксированы в отдельном файле scales.md — без якорей «энергия 4» сегодня и «энергия 4» через месяц могут означать разные состояния.
Стоимость оказалась неожиданно низкой: за май, когда шли эксперименты с моделями, — $1,91; за первые 13 дней июня на flash-моделях — $0,44. Локальное распознавание речи через faster-whisper исключает один из потенциально дорогих облачных вызовов. Главным же итогом эксперимента стало не железо и не стоимость, а архитектурный принцип: персональная система с историческими данными требует прежде всего надёжного доступа модели к этим данным. Без него даже сильная LLM начинает галлюцинировать — тихо и убедительно.

