Эксперты Московского физико-технического института протестировали работу генеративной нейросети Chat GPT-4 Turbo в ходе решения задач Единого государственного экзамена по физике. Результаты показали, что искусственный интеллект не смог достичь уровня успешного абитуриента МФТИ, и, набрав менее 85 баллов, не смог преодолеть проходной барьер для Физтеха.
Кандидат физико-математических наук, преподаватель МФТИ Леонид Колдунов рассказал, что нейросеть допустила ошибки при решении и объяснении задач – и в финальных расчетах, и в использовании терминов, а также в решении и понимании физики процесса. Помимо этого, искусственный интеллект предлагал нелогичные выводы, путался в формулировке ответа. Успешно решать удавалось лишь простые задачи, в которых требовался формальный подход.
Оказалось, что GPT не способен анализировать процессы или явления, для объяснения которых нужна фантазия. Нейросеть также не справилась с интерпретацией условий. В частности, она не справилась с задачей, в которой сказано, что длина волны изменится в два раза, но не указано, в какую сторону – уменьшения или увеличения. Искусственный интеллект не выполнил анализ, он лишь описал формулы и оперировал ими. Такой уровень знаний не позволит поступить в МФТИ. Свое мнение относительно результатов тестирования также высказал главный аналитик Центра искусственного интеллекта МФТИ, директор ведущей конференции по ИИ в России OpenTalks.AI Игорь Пивоваров. Он уверен, что несмотря на ошибки и отсутствие творческого подхода, модель генеративного интеллекта вполне можно обучить.
По общему мнению экспертов, в настоящее время класс подобных систем искусственного интеллекта отличается наличием проблем с цепью логических рассуждений, хотя в отдельных примерах они показывают ее приемлемый уровень. Как сообщает сайт Российского союза ректоров, последовательная логика пока что остается на более низком уровне в сравнении с человеком. Так что в решении сложных математических задач, в которых нужны нетривиальные подходы, генеративные модели ошибаются.
Комментарии