Разработчики из AWS опубликовали подробную инструкцию по созданию разговорного ИИ-ассистента для исследователей белков. Решение объединяет три ключевых компонента: парсинг естественно-языковых запросов, векторный поиск по эмбеддингам белков и автоматическую генерацию научных резюме.
В основе архитектуры — один агент на платформе Amazon Bedrock AgentCore, который использует три инструмента, определённых с помощью Strands Agents SDK. Первый инструмент — парсер, который с помощью вложенного LLM-агента извлекает из запроса структурированные параметры: последовательность, фильтр по виду, ограничение по числу результатов. Второй — поисковик, генерирующий эмбеддинги белка через модель ESM-C 300M на бессерверном эндпоинте SageMaker ИИ и выполняющий поиск по косинусному сходству в базе Amazon Aurora PostgreSQL с расширением pgvector. Третий — суммаризатор, использующий ещё один вложенный агент для составления кратких научных описаний найденных пептидов.
| Инструмент | Функция | Технология |
|---|---|---|
| Парсер | Извлечение структурированных параметров из запроса | Вложенный LLM-агент (Strands Agents SDK) |
| Поисковик | Генерация эмбеддингов и векторный поиск | ESM-C 300M, SageMaker AI, Aurora PostgreSQL + pgvector |
| Суммаризатор | Составление научных резюме результатов | Вложенный LLM-агент (Strands Agents SDK) |
Традиционный поиск структурно похожих пептидов требует ручного просмотра тысяч последовательностей и глубоких знаний предметной области. Предлагаемое решение автоматизирует этот процесс: пользователь может задать запрос на естественном языке, например «Найди 10 пептидов, похожих на пептид вируса денге LPAIVREAI», и получить структурированный ответ с таблицей результатов и кратким резюме.
Для поиска используется модель ESM-C 300M от EvolutionaryScale, развёрнутая как бессерверный эндпоинт Amazon SageMaker ИИ, что позволяет ей масштабироваться до нуля в простое.

Модель ESM-C 300M от компании EvolutionaryScale — это языковая модель для белков, которая создаёт 960-мерные векторные представления, отражающие структурные и функциональные свойства аминокислотных последовательностей. Развёртывание на SageMaker ИИ serverless endpoint позволяет платить только за вызовы: в простое ресурсы не потребляются. Веса модели упакованы в артефакт развёртывания, что исключает загрузку из HuggingFace во время инференса и ускоряет холодный старт.
Полное развёртывание занимает 30–45 минут. Для работы потребуется учётная запись AWS с доступом к моделям Bedrock (Anthropic Claude Sonnet 4.6), Python 3.12, AWS CLI и соответствующие разрешения IAM. Исходный код доступен в репозитории AWS.



