28.01.2024

Молодые татарстанские ученые в составе международной группы разработали метод объяснения решений ИИ

Международная исследовательская группа доказала, что применение нового метода искусственного интеллекта станет более безопасным. Результаты работы исследователей представил на международной конференции по обработке естественного языка EMNLP в Сингапуре студент магистратуры Университета Иннополис, победитель программы «УМНИК» Данис Алукаев.

Данис Алукаев стал победителем программы «УМНИК» в 2020 году с проектом «Разработка облачной платформы для детектирования патологий на биомедицинских изображениях с помощью нейронных сетей».

Современные модели глубокого обучения занимаются машинным переводом на все языки мира, выдают рекомендации пользователям киносервисов и маркетплейсов, строят графы знаний, генерируют изображения по тексту и диагностируют заболевания по медицинским снимкам. Однако человеку по-прежнему сложно интерпретировать решения моделей, что может тормозить внедрение ИИ-технологий в критически важные сферы, например, в медицину.

«Обычно модель машинного обучения воспринимается как чёрный ящик: на “вход” мы подаём какую-то информацию, на “выходе” — получаем результат. Но на практике специалистам, принимающим решения при помощи ИИ-сервисов, важно понимать причины, почему результат получился таким. Большинство современных моделей машинного обучения — чёрные ящики, в них нет механизмов для объяснения поведения модели. Наша научная работа и полученные результаты позволили приблизиться к пониманию того, что происходит внутри инструментов, основанных на искусственном интеллекте», — рассказал Данис Алукаев, студент Университета Иннополис‎.

По словам группы исследователей из России, Дании и Великобритании, объяснение принятых решений моделей машинного обучения увеличит доверие врачей и других специалистов при работе с искусственным интеллектом. Так, рентгенолог будет видеть не только поставленный ИИ-сервисом диагноз — пневмонию лёгкого, но и то, что решение вынесено из-за обнаруженных на анализируемом рентгеновском снимке признаков «матового стекла» — участков уплотнения лёгочной ткани.

Одним из подходов для повышения интерпретируемости решений моделей глубокого обучения учёные называют концептуализированную модель, или Concept Bottleneck Models. В этом подходе искусственный интеллект сначала предсказывает набор концептов, описывающий понятную человеку абстракцию: размер, позицию, текстуру, цвет, форму. Затем на основе полученного набора концептов модель делает предсказание: обнаружена ли на рентгеновском снимке патология органа, или нет. Такое предсказание авторы называют целевым. Основная идея исследователей — для объяснения целевого предсказания решения модели глубокого обучения достаточно посмотреть на предсказанные концепты и на их основе сделать вывод о достоверности предсказания.

«При таком подходе необходимо заранее выбрать набор концептов. Но возникают вопросы: на каких данных обучать модели и как разметить обучающие примеры, ведь разметка требует много времени и делается человеком вручную? Для своих экспериментов наша команда использовала 18 620 рентгеновских изображений разных органов, аннотаций врачей, разметок патологий и симптомов, которые мы использовали в других ИИ-исследованиях в этой области. Уникальность медицинских данных в том, что в них хранятся много как изображений, так и текстовых описаний — заключений рентгенологов. Мы разработали подход, где вместо набора концептов используются текстовые описания — это принципиально отличает наш метод от уже существующих»‎, — заявил Илья Першин, руководитель Лаборатории искусственного интеллекта в медицине Университета Иннополис.

Илья Першин, будучи студентом Казанского (Приволжского)федерального университета, также стал победителем программы «УМНИК» в 2021 году с проектом «Разработка комплекса программ для высокопроизводительного моделирования антенн сложной геометрии в области телекоммуникационных систем».

Исследователи выяснили, что при совместном использовании изображения и текста искусственный интеллект учится лучше и лучше обобщает закономерности, поэтому при атаке злоумышленников модель останется устойчивой. Кроме того, для предложенного авторами метода не требуется ручная разметка концептов — они автоматически выделяются моделью во время обучения, что позволяет создать оптимальный набор концептов и не тратить человеческий ресурс на рутинное аннотирование.

Напомним, в 2022 году на базе Центра «Мой бизнес» Республики Татарстан было открыто региональное представительство Фонда содействия инноваций. Центр «Мой бизнес» осуществляет общую интеграцию процесса реализации каждого конкретного проекта-победителя конкурса «Студенческий стартап» с предприятиями, с ВУЗами, с министерствами и ведомствами Республики Татарстан для дальнейшей коммерциализации технологических проектов в рамках нацпроекта «Малое и среднее предпринимательство».