Токсичный скандал в комментариях уже предрешён — ИИ видит это по первым репликам. И успевает остановить

“Внимание: ваш разговор зашел слишком далеко. Выключите интернет и попейте чаю”.


8hekx1t29t0dtfjdia0sqmnztnujhdgn.jpg

Исследователи из Университета штата Нью-Йорк в Олбани и Ратгерского университета предложили систему раннего предупреждения, которая пытается понять по первым комментариям, не перерастёт ли обычное обсуждение в токсичный конфликт. Модель смотрит на начало разговора и оценивает, не приближается ли обсуждение к катастрофе.

Авторы работы исходят из простой мысли: проблему в соцсетях часто создаёт не один грубый комментарий, а то, как дальше развивается разговор. Одна резкая реплика ещё не обязательно ведёт к серьёзному конфликту. Гораздо важнее вовремя заметить момент, когда собеседники начинают быстро подталкивать друг друга к общему срыву. По мнению исследователей, многие системы модерации слишком сосредоточены на отдельных сообщениях и поэтому плохо понимают контекст, упуская очень многое.

Чтобы проверить такой подход, команда взяла открытые наборы данных из Reddit и Instagram* - платформ с разной манерой общения и разным устройством обсуждений. Затем исследователи обучили модели определять по первым 10 комментариям, закончится ли ветка резким всплеском токсичности. В этом и состоит главная практическая ценность работы: если опасный сценарий удаётся заметить в самом начале, у платформы остаётся время вмешаться до того, как спор окончательно выйдет из-под контроля.

Авторы ввели собственную метрику - Comment Storm Severity, или CSS. Она показывает, насколько быстро и сильно токсичность нарастает в обсуждении за короткий промежуток времени по сравнению с началом той же ветки. Если значение CSS поднимается выше заданного порога, разговор считается вошедшим в стадию «негативного шторма» (так можно примерно перевести параметр с английского).