Ингушский язык имеет государственный статус в России, но до недавнего времени его цифровая инфраструктура оставалась практически нулевой. Платформа PaydaDosh изменила это: сегодня на paydadosh.ru доступны 66 524 словарных статьи, параллельный корпус из десятков тысяч предложений, 2 156 пословиц, 171 притча и разговорник с сотнями готовых фраз. Всё бесплатно и открыто.
Основа словаря — проект «Словарный свод ингушского языка», поверх которого команда интегрировала данные из более чем пятнадцати лексикографических источников. Хронологический разброс впечатляет: от «Ингушско-русского словаря» Ужахова 1927 года до «Русско-ингушского словаря» Кодзоева 2021 года с 22 500 словами. Есть и узкоспециализированные издания — словарь компьютерных терминов, медицинская лексика, терминология средневекового оружия, астрономические термины. Каждая статья привязана к источнику через сокращённый код, что позволяет исследователям проверить первоисточник.
Технически платформа решает нетривиальную задачу. Ингушский — язык с эргативным строем, развитой падежной системой и глагольными классами: одно слово может давать десятки словоформ. Нечёткий поиск с учётом морфологии позволяет находить слово по любой его форме, приоритизируя точные совпадения. Корпус и словарь связаны напрямую: клик на слово в тексте открывает его карточку, а в карточке видны живые примеры употребления из корпуса с переводом.
Параллельный корпус включает роман «Магас Благословенный» (34 156 предложений) и ингушский фольклор (9 477 предложений).
Параллельный корпус — отдельная ценность для вычислительной лингвистики. Роман Иссы Кодзоева «Магас Благословенный» дал 34 156 выровненных предложений, ингушский фольклор — ещё 9 477. Переводы классики — Пушкина, Тургенева, Свифта, Киплинга — добавляют тысячи пар предложений. «Капитанская дочка» в переводе на ингушский — это 2 918 предложений, по которым можно изучать синтаксис в сравнении с хорошо изученным русским текстом. Для малых языков Кавказа подобных выровненных корпусов почти не существует, и каждый такой текст становится реальным ресурсом для обучения языковых моделей.
Раздел «Хаттараш» («Вопросы») работает как сообщество с ИИ-поддержкой: к каждому новому вопросу по грамматике или переводу система автоматически формирует предварительный ответ на основе словаря и грамматики — это снижает порог входа в момент, когда живые носители ещё не успели ответить. Ответы носителей помечаются отдельно, лучший ответ отмечает автор вопроса. Любой зарегистрированный пользователь может предложить новое слово, пример или озвучку — после модерации материал попадает в общую базу и в офлайн-приложение при следующем обновлении.
Среди ближайших планов — расширение корпуса оригинальными ингушскими текстами, развитие ИИ-ответов с учётом специфики ингушской грамматики и перенос флешкарт и квизов с мобильного приложения на сайт. Проект открыт для сотрудничества с лингвистами и разработчиками, работающими с эргативными языками и малыми языками Кавказа.


