Четыре месяца голосового дневника на домашнем сервере: почему память важнее модели

Подготовлено редакцией Malakhov AI

Habr AI·13 июн.·3 минРоссияКод

За четыре месяца и около 120 ежедневных записей инженер обнаружил, что самая сильная LLM бесполезна, если не получает доступа к нужным файлам: агент анализировал месяц, опираясь на случайные фрагменты, а остальное достраивал сам. Эксперимент превратился в рабочую систему на старом Xiaomi Mi Gaming Laptop с GTX 1060 и бюджетом $1,91 за май.

Кратко

—Система работает четыре месяца: ~120 записей, 35 дней непрерывного uptime, стоимость мая — $1,91.
—Голосовой ввод через Telegram: 22 секунды аудио распознаются за 2,17 секунды локально через faster-whisper.
—Железо — Xiaomi Mi Gaming Laptop 2019 года: GTX 1060 6 GB, 16 GB RAM, Ubuntu 24.04.
—Записи хранятся в Markdown-файлах с YAML frontmatter; исходный текст нельзя заменять пересказом модели.
—Главный вывод: доступ к данным важнее выбора модели — без нужных записей LLM достраивает факты самостоятельно.

Глоссарий · 7 терминов▾

LLM: Large Language Model — большая языковая модель, нейросеть, обученная на текстах и способная генерировать связные ответы на запросы.
faster-whisper: Оптимизированная реализация модели распознавания речи Whisper от OpenAI, работающая быстрее оригинала за счёт квантизации весов.
YAML frontmatter: Блок метаданных в начале Markdown-файла, обрамлённый тремя дефисами; используется для хранения структурированных полей вроде даты, тегов и числовых оценок.
Hermes Agent: Open-source фреймворк от Nous Research для построения ИИ-агентов: принимает сообщения, вызывает языковые модели и запускает внешние инструменты.
vision-модель: Языковая модель с поддержкой изображений на входе — позволяет извлекать текст и данные из скриншотов.
allowlist: Список разрешённых идентификаторов (например, Telegram user ID), которым разрешён доступ к боту; все остальные запросы игнорируются.
compute_type int8_float32: Режим квантизации весов модели: часть вычислений выполняется в 8-битном целочисленном формате, что снижает потребление памяти и ускоряет инференс.

Агент выдал убедительный анализ прошедшего месяца — связный текст, аккуратные выводы. Проблема выяснилась позже: большую часть дневниковых файлов он не читал. Они лежали на том же диске, но в анализ попали лишь случайные фрагменты, остальное модель достроила самостоятельно — и сделала это так гладко, что автор почти не заметил подмены. Этот момент стал центральным наблюдением четырёхмесячного эксперимента: в персональных системах с историческими данными архитектура памяти важнее выбора LLM.

Эксперимент начался не с технологии, а с банальной проблемы — предыдущие дневники умирали через несколько недель. Бумажные блокноты, Notion, приложения-трекеры давали один и тот же сценарий: первые дни интересно, потом пропуск, потом долг за два дня, потом дневник начинает ассоциироваться не с осознанностью, а с невыполненной обязанностью. Решением стало убрать трение до минимума: Telegram уже открыт десятки раз в день, голосовое сообщение не требует формулировать идеальную запись. В 21:00 телефон вибрирует, пользователь зажимает кнопку записи и сорок секунд говорит как есть — про сон, энергию, тренировку, работу. Через месяц интерес к новому инструменту прошёл, а ритуал остался. Именно это автор считает признаком того, что система прижилась.

Компонент	Конфигурация
CPU	Intel Core i7-8750H, 6 ядер / 12 потоков
GPU	GTX 1060 Mobile, 6 GB VRAM
RAM	16 GB
OS	Ubuntu 24.04 LTS

Аппаратная основа системы — Xiaomi Mi Gaming Laptop 2019 года с процессором Intel Core i7-8750H, GTX 1060 Mobile на 6 GB VRAM и 16 GB оперативной памяти под управлением Ubuntu 24.04. С 2021 года ноутбук простаивал; в начале 2026-го его решили не покупать отдельный сервер, а задействовать то, что уже есть. Для домашнего сервера конфигурация оказалась удобной: работает достаточно тихо, встроенная батарея переживает короткие отключения питания, а GTX 1060 ускоряет распознавание речи. Полноценным ИБП это не считается — батарея не защищает роутер и не заменяет контролируемое завершение работы.

Архитектура намеренно распределена по задачам. Голос распознаёт faster-whisper 1.2.1 с моделью medium локально — без отправки аудио в облако. Текст приводит к единому формату недорогая модель DeepSeek через API. Скриншоты разбирает отдельная vision-модель. Всё это связывает Hermes Agent от Nous Research — open-source фреймворк, который принимает сообщения, вызывает модели и запускает инструменты. Отдельного HTTP-сервиса между Hermes и Whisper нет: faster-whisper установлен как зависимость в Python-окружение и вызывается напрямую. Доступ к боту — только по allowlist в Telegram.

Производительность распознавания на GTX 1060: 22 секунды аудио обрабатываются за 2,17 секунды — примерно в десять раз быстрее реального времени. Автор оговаривается, что это единичный замер, зависящий от аудио и нагрузки, но для дневника важнее другое: ждать приходится секунды, а не минуту. GPU при этом не обязателен — faster-whisper работает и на CPU, просто медленнее. На 7 июня 2026 года процесс Hermes работал без перезапуска 35 дней, занимал около 5,7 ГБ памяти и накопил 6 часов 27 минут процессорного времени.

Каждая запись хранится в отдельном Markdown-файле с YAML frontmatter: дата, часы сна, энергия, настроение, стресс, теги. Ниже — аккуратная сводка и раздел Raw с исходным текстом голосового сообщения. Исходник принципиально нельзя заменять пересказом модели: анализ можно сделать заново, потерянный текст — нет. Повторное сообщение за тот же день обновляет существующий файл, а не создаёт дубликат. Данные из скриншотов получают пометку needs_review: true и требуют ручного подтверждения. Шкалы настроения, энергии и стресса зафиксированы в отдельном файле scales.md — без якорей «энергия 4» сегодня и «энергия 4» через месяц могут означать разные состояния.

Стоимость оказалась неожиданно низкой: за май, когда шли эксперименты с моделями, — $1,91; за первые 13 дней июня на flash-моделях — $0,44. Локальное распознавание речи через faster-whisper исключает один из потенциально дорогих облачных вызовов. Главным же итогом эксперимента стало не железо и не стоимость, а архитектурный принцип: персональная система с историческими данными требует прежде всего надёжного доступа модели к этим данным. Без него даже сильная LLM начинает галлюцинировать — тихо и убедительно.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Четыре месяца голосового дневника на домашнем сервере: почему память важнее модели

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений