Постоянная ссылка (СИД2) |
J1941988849 |
Название |
Сходство документов на основе аспекта на примере научных статей |
Автор |
Остендорф Мальте |
Автор |
Рем ГЕОРГ |
Автор |
Руас Терри |
Автор |
Блюме Тилль |
Автор |
Гипп Бела |
Источник |
Международный форум по информации/ Всероссийский институт научной и технической информации РАН |
Страницы/Объём |
31-41 |
Сокращ. назв. источника |
Междунар. форум по инф./ ВИНИТИ РАН |
Год |
2021 |
Том |
46 |
Номер |
1 |
DOI |
10.36535/0203-6460-2021-01-4 |
Постоянная ссылка (СИД) |
J19419888 |
Дата регистрации в ВИНИТИ |
16.03.2021 |
Место хранения |
Удаленный доступ. Эл. регистрация |
Язык текста |
русский |
Аннотация |
Традиционные измерения сходства документов обеспечивают крупномодульное разграничение между схожими и несхожими документами. Обычно эти измерения не рассматривают в каких аспектах два документа являются схожими. Это ограничивает степень структурирования прикладных задач, таких как рекомендательные системы, которые полагаются на сходство документов. Понятие сходства расширяется аспектом информации через выполнение задачи классификации пар документов. Оценивается сходство документов на основе аспекта на примере научных публикаций. Ссылки в статьях отражают сходство по аспекту, например, часть названия, в котором встречается ссылка, выполняет функции категории для пары цитирующей и цитируемой статьи. Использовался ряд вариаций моделей Transformer, таких как ROBERTa, ELECTRA, XLNet и BERT, и они сравнивались с ведущей моделью LSTM. Наши эксперименты проводились на двух недавно созданных наборах данных, подсчитывающих 172 073 научные статьи из собраний ACL Anthology и CORD-19. Относительно выполнения результаты определяют в качестве лучшей систему SciBERT. Качественное исследование обосновывает наши количественные результаты. Выводы стимулируют проведение дальнейших исследований сходства документов на основе аспекта и разработку рекомендательных систем на основе оценки технологий. Наборы данных, коды и подготовленные модели являются публично доступными. |
Адрес полного текста в открытом доступе |
|
Тематический раздел |
Информатика |
Издательский номер в РЖ |
22.04-59.160 |
Шифр ГРНТИ |
20.17.15 |
Ключевые слова |
научные статьи, сходство документов, ссылки, классификация пар документов |
|