Семантическая аналитика , также называемая семантической связанностью , представляет собой использование онтологий для анализа контента в веб-ресурсах . Эта область исследований объединяет текстовую аналитику и технологии семантической паутины, такие как RDF . Семантическая аналитика измеряет связанность различных онтологических концепций.
Некоторые академические исследовательские группы, которые ведут активные проекты в этой области, включают в себя Центр Kno.e.sis при Университете штата Райт и другие.
Важная веха в начале семантической аналитики произошла в 1996 году, хотя историческое развитие этих алгоритмов во многом субъективно. В своей основополагающей научной публикации Филип Резник установил, что компьютеры способны имитировать человеческое суждение. Охватывая публикации нескольких журналов, улучшения точности общих семантических аналитических вычислений все претендовали на революцию в этой области. Однако отсутствие стандартной терминологии в конце 1990-х годов было причиной большого недопонимания. Это побудило Буданицкого и Херста стандартизировать предмет в 2006 году с помощью резюме, которое также установило рамки для современного анализа орфографии и грамматики. [1]
На заре семантической аналитики получение достаточно большой надежной базы знаний было затруднительным. В 2006 году Strube & Ponzetto продемонстрировали, что Wikipedia может использоваться в семантических аналитических вычислениях. [2] Использование большой базы знаний, такой как Wikipedia, позволяет повысить как точность, так и применимость семантической аналитики.
Учитывая субъективную природу этой области, различные методы, используемые в семантической аналитике, зависят от области применения. Ни один из отдельных методов не считается правильным, однако одним из наиболее эффективных и применимых методов является явный семантический анализ (ESA). [3] ESA был разработан Евгением Габриловичем и Шаулем Марковичем в конце 2000-х годов. [4] Он использует методы машинного обучения для создания семантического интерпретатора, который извлекает текстовые фрагменты из статей в отсортированный список. Фрагменты сортируются по тому, насколько они связаны с окружающим текстом.
Латентный семантический анализ (ЛСА) — еще один распространенный метод, который не использует онтологии, а рассматривает только текст во входном пространстве.
Применение методов семантического анализа обычно оптимизирует организационные процессы любой системы управления знаниями. Академические библиотеки часто используют доменно-специфическое приложение для создания более эффективной организационной системы. Классифицируя научные публикации с помощью семантики и Википедии, исследователи помогают людям быстрее находить ресурсы. Поисковые системы, такие как Semantic Scholar, обеспечивают организованный доступ к миллионам статей.