Разработчики из AWS опубликовали подробную инструкцию по созданию разговорного ИИ-ассистента для исследователей белков. Решение объединяет три ключевых компонента: парсинг естественно-языковых запросов, векторный поиск по эмбеддингам белков и автоматическую генерацию научных резюме.

В основе архитектуры — один агент на платформе Amazon Bedrock AgentCore, который использует три инструмента, определённых с помощью Strands Agents SDK. Первый инструмент — парсер, который с помощью вложенного LLM-агента извлекает из запроса структурированные параметры: последовательность, фильтр по виду, ограничение по числу результатов. Второй — поисковик, генерирующий эмбеддинги белка через модель ESM-C 300M на бессерверном эндпоинте SageMaker ИИ и выполняющий поиск по косинусному сходству в базе Amazon Aurora PostgreSQL с расширением pgvector. Третий — суммаризатор, использующий ещё один вложенный агент для составления кратких научных описаний найденных пептидов.

ИнструментФункцияТехнология
ПарсерИзвлечение структурированных параметров из запросаВложенный LLM-агент (Strands Agents SDK)
ПоисковикГенерация эмбеддингов и векторный поискESM-C 300M, SageMaker AI, Aurora PostgreSQL + pgvector
СуммаризаторСоставление научных резюме результатовВложенный LLM-агент (Strands Agents SDK)

Традиционный поиск структурно похожих пептидов требует ручного просмотра тысяч последовательностей и глубоких знаний предметной области. Предлагаемое решение автоматизирует этот процесс: пользователь может задать запрос на естественном языке, например «Найди 10 пептидов, похожих на пептид вируса денге LPAIVREAI», и получить структурированный ответ с таблицей результатов и кратким резюме.

Для поиска используется модель ESM-C 300M от EvolutionaryScale, развёрнутая как бессерверный эндпоинт Amazon SageMaker ИИ, что позволяет ей масштабироваться до нуля в простое.

Architecture diagram showing the protein research copilot with Streamlit frontend on AWS Fargate, Strands agent on Amazon Bedrock AgentCore, parser and summarizer agents, SageMaker AI endpoint for ESM-C 300M embeddings, and Aurora PostgreSQ
Architecture diagram showing the protein research copilot with Streamlit frontend on AWS Fargate, Strands agent on Amazon Bedrock AgentCore, parser and summarizer agents, SageMaker AI endpoint for ESM-C 300M embeddings, and Aurora PostgreSQ · Источник: AWS Machine Learning Blog

Модель ESM-C 300M от компании EvolutionaryScale — это языковая модель для белков, которая создаёт 960-мерные векторные представления, отражающие структурные и функциональные свойства аминокислотных последовательностей. Развёртывание на SageMaker ИИ serverless endpoint позволяет платить только за вызовы: в простое ресурсы не потребляются. Веса модели упакованы в артефакт развёртывания, что исключает загрузку из HuggingFace во время инференса и ускоряет холодный старт.

Полное развёртывание занимает 30–45 минут. Для работы потребуется учётная запись AWS с доступом к моделям Bedrock (Anthropic Claude Sonnet 4.6), Python 3.12, AWS CLI и соответствующие разрешения IAM. Исходный код доступен в репозитории AWS.