Пока во всем мире активно обсуждают возможности Chat GPT, российские специалисты из Института искусственного интеллекта (AIRI) разработали нейросеть, предназначенную для того, чтобы автоматически анализировать литературные тексты и документацию. Об этом сообщила пресс-служба института.
В процессе создания приложения авторы использовали теорию графов, а также и NER-алгоритмы, связанные с распознаванием именованных сущностей, а проще говоря – поиск по ключевым словам.
Применяя возможности новой нейросети, можно получить, например, краткое резюме юридических документов. Ведь не секрет, что иногда людям по работе, учебе или жизненным обстоятельствам приходится читать и прорабатывать огромное количество материалов. Разработка поможет существенно сэкономить время, выделив в текстах лишь самое важное и первостепенное.
Что же касается художественных произведений, то искусственный интеллект способен быстро охарактеризовать действующих в них персонажей на основе их описаний и высказываний и даже определить характер их взаимоотношений.
Зачем это нужно? В частности, для написания школьных сочинений, изложений, студенческих рефератов. Цель создания письменных работ – показать, насколько хорошо учащийся усвоил пройденный материал. Где-то требуется просто пересказать содержание текста своими словами. Где-то – проявить навыки самостоятельной работы, проанализировать прочитанное, ознакомиться с источниками по теме, сделать собственные выводы.
Допустим, вы задали алгоритму проанализировать какой-нибудь договор. Да, суть его вам машина изложит. Но помните ли вы предупреждения экспертов о том, что в обязательном порядке следует читать все пункты контрактов, в том числе и написанные очень мелким текстом? Вы уверены, что приложение учтет и их тоже? А ведь этот «лишний» текст может содержать очень важную для вас информацию. Скажем, относительно условий кредита, который вы решили взять, либо штрафов, которые будут вычитать из вашей зарплаты на новой работе.
Или возьмем литературу по школьной программе. Сегодня в Интернете можно найти краткий пересказ многих классических произведений. И никакой алгоритм тут не нужен.
Но даже если вы заучите эти сведения наизусть, не забывайте, что при создании выжимки из текста теряются многие нюансы, которые могут быть важны для того же анализа и даже для сдачи ЕГЭ. Хотя машине они могут показаться не играющими большой роли.
Тогда можно ли вообще поручать ИИ работу с текстами? Команда исследователей из Университета штата Нью-Йорк, Университета медицинских наук Даунстейта, а также Нью-Йоркского медицинского центра Вейла Корнелла (США) недавно выяснила, что продвинутые языковые модели, подобные ChatGPT, могут генерировать ложные факты.
Если вы даете алгоритму задачу подобрать фактуру по какой-то распространенной теме (предположим, сгенерировать биографические данные об известном человеке), то с большой вероятностью они будут представлены верно, потому что программа использует уже имеющиеся в Сети источники, ей не надо самой ничего придумывать.
Если же вы введете имя и фамилию какой-то малоизвестной личности, то приложение слепит «биографию» из того, что есть, собрав с миру по сосенке при помощи ключевых слов, которые в различных источниках могут приводиться в самых разных контекстах. И такие сведения о человеке могут сильно отличаться от реальных.
То же самое и с любыми другими фактами. Если их не хватает или просто нет, машина их «дорисует» по своему усмотрению. И этим свойством алгоритма могут пользоваться мошенники, скажем, для создания поддельных научных работ. Об этом говорится в статье, опубликованной в журнале Patterns.
По заданию ученых ChatGPT сгенерировала ряд вымышленных научных тезисов, которые практически невозможно было отличить от настоящих. В иных текстах приводились даже результаты практических исследований, которых никогда не было, и ложные данные. По мнению авторов работы, какие-то издательства или журналы вполне могут принять такой материал за чистую монету и опубликовать его.
Между тем в процессе тестирования экспертам было предложено отличить научные тексты, созданные человеком, от сгенерированных машинными алгоритмами. Испытуемые ошибочно идентифицировали 32% тезисов авторства ИИ и 14% текстов, авторами которых были живые люди.
Когда же тексты проверялись при помощи онлайн-инструментов, в подавляющем большинстве случаев программы вычислили искусственно сфабрикованный материал. Однако, когда перед данной процедурой использовались алгоритмы перефразирования на базе ИИ, тексты уже стали распознаваться как созданные человеком.
Поэтому нужно искать более эффективные средства анализа текстовых данных, считают специалисты. Электронные алгоритмы должны являться вспомогательными инструментами, но при этом не искажать смысла текстов и ни в коем случае не служить мошенническим целям.
Лада КОВАЛЕНКО
Комментарии