Piranha — это система интеллектуального анализа текста . Она была разработана для Министерства энергетики США (DOE) Национальной лабораторией Ок-Ридж (ORNL). Программное обеспечение обрабатывает документы с произвольным текстом и показывает связи между ними — метод, ценный для многочисленных областей данных, от мошенничества в здравоохранении до национальной безопасности. Результаты представлены в кластерах с приоритетной релевантностью. Piranha использует метод взвешивания терминов частоты/обратной частоты корпуса, который обеспечивает сильную параллельную обработку текстовой информации, таким образом, возможность анализировать большие наборы документов.
Пиранья состоит из шести основных элементов:
- Сбор и извлечение: можно собрать миллионы документов из таких источников, как базы данных и социальные сети, и извлечь текст из сотен форматов файлов; эту информацию можно перевести на другие языки.
- Хранение и индексация: Документы на поисковых серверах, реляционных базах данных и т. д. могут храниться и индексироваться.
- Рекомендация: Система может выделять наиболее ценную информацию для конкретных пользователей.
- Категоризация: группировка элементов с помощью контролируемых и полуконтролируемых методов машинного обучения и целевых списков поиска.
- Кластеризация: Сходство используется для иерархической группировки документов.
- Визуализация: отображение связей между документами, чтобы пользователи могли быстро распознавать связи.
Результатом этой работы стали восемь патентов (9 256 649, 8 825 710, 8 473 314, 7 937 389, 7 805 446, 7 693 9037, 7 315 858, 7 072 883) и коммерческие лицензии (включая TextOre и Pro2Serve), дочерняя компания с изобретателями Covenant Health и Pro2Serve под названием VortexT Analytics, две награды R&D 100 и множество рецензируемых исследовательских публикаций.
Ссылки
- Cui, X., Beaver, J., St. Charles, J., Potok, T. (сентябрь 2008 г.). Труды симпозиума IEEE по роевому интеллекту, Сент-Луис, Миссури. Снижение размерности для кластеризации роя частиц высокой размерности .
- Ясин, Ратрелл (29 ноября 2012 г.) GCN. Пиранья из энергетической лаборатории вонзает зубы в анализ текста
- Франклин-младший, Кертис (30 ноября 2012 г.) Эффективность предприятия. Piranha приносит правительству доступные большие данные
- Бриден II, Джон (7 декабря 2012 г.) GCN. Плавание с пираньями: тестирование инструмента анализа текста Oak Ridge
- Кирби, Боб (лето 2013 г.) FedTech. Большие данные могут помочь федеральному правительству сдвинуть горы. Вот как.
- RM Patton, BG Beckerman, TE Potok, G. Tourassi, «Рекомендательная система для поиска и уточнения информации, которую ищут радиологи, через Интернет», Радиологическое общество Северной Америки (RSNA), Ежегодное собрание 2012 г., ноябрь 2012 г., Чикаго, Иллинойс, США.
- RM Patton, TE Potok, BA Worley, «Открытие и уточнение научной информации с помощью рекомендательной системы», Вторая международная конференция по передовым коммуникациям и вычислениям, октябрь 2012 г., Венеция, Италия.
- JW Reed, TE Potok и RM Patton, «Многоагентная система для распределенного кластерного анализа», в Трудах Третьего международного семинара по программной инженерии для крупномасштабных многоагентных систем (SELMAS'04)», Семинар W16L — 26-я Международная конференция по программной инженерии Эдинбург, Шотландия, Великобритания: IEE, 2004, стр. 152-5.
- J. Reed, Y. Jiao, TE Potok, B. Klump, M. Elmore и AR Hurson, «TF-ICF: новая схема взвешивания терминов для кластеризации динамических потоков данных», в Трудах 5-й Международной конференции по машинному обучению и приложениям (ICMLA'06). том 0 ОРЛАНДО, Флорида, 2006, стр. 258–263.
Награды
- Премия журнала R&D 100 2007 года «Пиранья» (программное обеспечение)
Патенты
- Патент США 7,072,883 – Система сбора и обобщения интернет-информации
- Патент США 7,315,858 – Метод сбора и обобщения интернет-информации
- Патент США 7,693,903
- Патент США 7,805,446 – Агентный метод распределенной кластеризации текстовой информации
- Патент США 7,937,389 – Динамическое уменьшение размеров вектора документа в системе поиска и извлечения документов
- Патент США 8,473,314 – Метод и система определения предвестников отклонений в состоянии здоровья на основе обработки медицинских записей
Внешние ссылки
- Портал инноваций в сфере энергетики Министерства энергетики США (2014 г.) Программное обеспечение на основе агентов для сбора и обобщения текстовой и интернет-информации .
- Сайт ORNL Piranha