Отладка и оценка. Как измерять качество ответов ИИ

Размер шрифта:   13
Отладка и оценка. Как измерять качество ответов ИИ

– Так, группа, приветствую вас на новом занятии! Вижу в ваших глазах огонь после прошлого урока. Вы уже попробовали пообщаться с ИИ, да? Набросали первые промты, получили кучу текста и… возможно, немного растерялись.

Сразу скажу: это абсолютно нормально. Первый диалог с нейросетью часто напоминает разговор с очень эрудированным, но немного рассеянным профессором. Он может выдать гениальную мысль, а в следующую секунду – уйти в такие дебри, что хоть святых выноси.

Мой студент Ваня на прошлой неделе поделился: «Я попросил нейросеть написать мне план маркетинговой стратегии для нового кофе. Она выдала мне трёхстраничный текст, начинающийся с истории кофе в Эфиопии XV века. Это круто, но моего босса история Буркина-Фасо не интересует».

Вот именно с этой проблемы мы и начнём. Ваш главный инструмент как промт-инженера – это не умение писать запросы, а умение оценивать ответы и исправлять ошибки. Сегодня мы будем учиться быть не пользователями, а тестировщиками, редакторами и наставниками для искусственного интеллекта.

Глава 1. «На вкус и цвет» – вводим систему координат.

Первый инстинкт – оценить ответ по принципу «нравится / не нравится». Это тупиковый путь. Нам нужны объективные, измеримые критерии. Запомните эту «великую пятёрку»:

Релевантность. Самый базовый критерий. Ответил ли ИИ именно на ваш вопрос? Не ушёл ли он в сторону?

Пример: Вы спрашиваете: «Какие существуют модели электромобилей с запасом хода от 500 км?». Релевантный ответ перечислит модели и их характеристики. Нерелевантный – начнет с истории создания первого электромобиля или расскажет о принципах работы литий-ионных батарей.

Точность (Фактическая правильность). А правда ли то, что он написал? Здесь ИИ хромает чаще всего. Он может генерировать «галлюцинации» – убедительно звучащую, но абсолютно выдуманную информацию.

Пример: «Александр Пушкин и Михаил Лермонтов были близкими друзьями и часто встречались в литературных салонах Санкт-Петербурга». Звучит правдоподобно? Еще как! Но Лермонтову было 15 лет, когда Пушкина убили. Никаких регулярных встреч быть не могло. Ваша задача – как у детектива, перепроверять сомнительные факты.

Полнота и Глубина. Ответил ли ИИ на вопрос исчерпывающе? Затронул ли все аспекты, которые вы подразумевали?

Пример: Запрос «Напиши пост для блога про здоровый сон».

Поверхностный ответ: «Спите 8 часов, проветривайте комнату, не пользуйтесь телефоном перед сном. Хорошего сна!»

Глубокий ответ: расскажет о фазах сна (REM и NREM), влиянии синего света на выработку мелатонина, важности циркадных ритмов, приведёт примеры «вечерних ритуалов» и упомянет несколько научных исследований.

Креативность и Стиль. Соответствует ли ответ заданному тону и формату? Был ли он шаблонным или, наоборот, оригинальным?

Пример: Запрос «Придумай слоган для новой линии эко-косметики».

Шаблонный ответ: «Натуральная красота для вас!» или «Заботьтесь о себе и о природе».

Креативный ответ (при правильном промте): «Твоя кожа – это лес. Подари ей росянку утра и тишину ночи». или «Косметика, которая дышит. Вместе с планетой».

Безопасность и Этика. Не содержит ли ответ вредоносных, предвзятых, дискриминационных или опасных советов? Это критически важно.

Продолжить чтение