Публикации
Быков Ф.Ю., Крижановский А.А.
Поиск почти похожих текстов в лингвистическом корпусе ВепКар
// Труды КарНЦ РАН. No 4. Сер. Математическое моделирование и информационные технологии. 2023. C. 16-23
Ключевые слова: корпусная лингвистика; почти похожие тексты; ранговая корреляции Кендалла
При построении лингвистических корпусов разработчикам требуется очищать корпусы от текстовых дубликатов. В статье представлен небольшой обзор способов поиска почти похожих текстов в различных корпусах. Разработан алгоритм и программа поиска почти похожих текстов на основе подсчёта числа общих биграмм. Проведены эксперименты на текстах Открытого корпуса вепсского и карельского языков ВепКар. Из 100 найденных программой пар наиболее похожих текстов эксперт подтвердил около половины случаев сходства. С помощью рангового расстояния Кендалла было подсчитано, какая из трёх рассмотренных метрик сходства текстов упорядочивает пары похожих текстов наиболее близко к эспертному. Разработанная программа и в дальнейшем будет использоваться в корпусе текстов ВепКар.
Индексируется в РИНЦ
Последние изменения: 27 июня 2023