Исследователи нижегородского кампуса ВШЭ разработали метод определения лжи с точностью 92%. Они анализируют сразу четыре слоя коммуникации — речь, голос, мимику и жесты, — чтобы отличить правду от вымысла. Руководитель проекта Анна Хоменко и директор Центра языка и мозга Мария Худякова объяснили, как лжец выдает себя.
— Как появилась идея разработки метода определения лжи?
Анна Хоменко: Я рассказала студентам на одном из курсов по лингвистической экспертизе про судебные методики: судебную лингвистическую, психолого-лингвистическую экспертизы. Они используются для определения искренности показаний. Есть видео допроса, по которому нужно понять, правду ли говорит человек или нет. Можно сказать, что это аналог полиграфа.
После этого одна из моих студенток, Ева Патракова, которая сейчас задействована в нашем проекте, предложила развить эти методики в научном поле. Мы начали работу над алгоритмом, Ева защитила его в качестве ВКР. У нас в государственной экзаменационной комиссии присутствуют специалисты из экспертного центра Следственного комитета, которые очень высоко оценили работу. Впоследствии из этого исследования вырос большой проект.
— Как работает ваш алгоритм?
Мария Худякова: Принцип работы основан на сборе больших речевых корпусов. Наша цель — не вручную выбрать какие-то показатели и смотреть только на них, а создать базу речи, где мы бы точно знали, в какой момент человек говорит правду, а в какой — ложь.
При этом для каждого говорящего должно быть собрано достаточно звучащей речи, где есть достоверная и недостоверная информация. На основании этого размеченного корпуса, где про каждую миллисекунду речи мы знаем, где правда и ложь, можно провести анализ.
Анна Хоменко: Сбор корпуса данных и его разметка — это очень сложный, долгий и трудозатратный процесс. После сбора речевого материала мы комплексно анализируем лингвистические слои. Важно понимать, что при общении мы используем не только вербальную коммуникацию, но и жесты, разную тональность голоса и другие характеристики.
Признаки лжи есть на всех уровнях коммуникации, начиная от самой речи — ее наполненности, лексики, синтаксических конструкций — до мимики и темпа речи говорящего. Признаки можно разделить на кластеры: речь, голос, мимика и жесты. Эти четыре слоя должны быть проанализированы для того, чтобы выявить компоненты, которые отвечают за правдивость речи.
— Есть ли какие-то ключевые признаки, которые указывают на ложь?
Анна Хоменко: Одни и те же характеристики у одного человека могут указывать на ложь, а у другого они могут быть индивидуальной особенностью. Тем не менее, понятно, что мы должны масштабировать исследование и ориентироваться на определенный перечень признаков.
Так, малое количество деталей в речи, если мы говорим про уровень лексики, обычно указывает на то, что человек лжет. Сложно придумывать детали, если ты рассказываешь про то, как ты ходил в кино, и понятия не имеешь, на каком ряду ты сидел, когда был сеанс. Еще один признак — отсутствие глаголов, которые обозначают сенсорные реакции: почувствовал, увидел, услышал. Если человек врет, этих глаголов обычно мало.
Что касается жестов, все жесты-адаптеры, когда мы теребим кольцо, воротник рубашки, волосы, почесываем нос, могут говорить о лжи. Жесты-иллюстраторы, когда мы, например, показываем руками размер рыбы, которую поймали, напротив, указывают на правдивость речи.
Если мы говорим про мимику, тут тоже есть ряд признаков. Многие считают, что люди не смотрят в глаза, когда лгут, но это не так. Человек может очень пристально смотреть на собеседника, чтобы во время лжи считывать его реакции. Попытка отвести глаза, в свою очередь, может быть индивидуальной реакцией.
Важный признак — это движение глаз ко лбу. Обычно человек в этот момент не придумывает, а вспоминает. Что касается акустических характеристик, при лжи голос, как правило, становится выше.
Мария Худякова: Часто какие-то признаки, которые отвечают за ложь, в то же время являются признаками, указывающими на стресс. Если вы посадите человека в тесную комнату, направите на него яркий свет и спросите, воровал ли он когда-нибудь, он может испугаться и из-за этого показать определенные реакции.

— Как тестировался алгоритм?
Анна Хоменко: Само исследование находится в разработке, нам предстоит еще очень большое количество шагов. Для тестирования метода мы использовали большой пул речевых данных, которые были разбиты на кластеры. Мы пытались сбалансировать корпус, поэтому брали мужскую и женскую речь, разные возрастные категории и тематическую наполненность речи. Для анализа нужно было три фрагмента речи: правдивая, лживая и отрывок, где нужно определить достоверность.
— Какова достоверность алгоритма?
Анна Хоменко: На данный момент, на очень хорошем, выверенном кластере при нормальных условиях с очень естественной записью звука точность составляет 92%.
— Каков вектор развития проекта?
Мария Худякова: Когда мы анализируем звучащую речь, всегда стоит вопрос, насколько это универсально. Некоторые признаки, связанные с физиологическими параметрами, не зависят от национальности и языка говорящего. Если же говорить о речи и ее содержании, возникают большие вопросы.
Даже если обращаться к мимике и направлению взгляда, для разных культур норма может различаться. Например, где-то может быть невежливо смотреть прямо на собеседника.
Каждый раз, когда мы говорим, что собираем большую базу данных, нужно понимать, что это речь носителей русского языка. В основном из больших городов — Нижнего Новгорода, Москвы. Это, на самом деле, довольно ограниченная популяция.
Анна Хоменко: Мы будем двигаться в сторону максимальной универсализации. Чем шире выборка, тем больше можно доверять данным, которые мы получаем.