Определение термина «сеанс» различается, особенно применительно к поисковым системам . [1] Обычно под сеансом понимается «последовательность запросов, сделанных одним конечным пользователем во время посещения определенного сайта». [2] В контексте поисковых систем «сеансы» и «сеансы запросов» имеют по крайней мере два определения. [1] Сеанс или сеанс запросов могут включать в себя все запросы, сделанные пользователем в определенный период времени [3] или это может быть также серия запросов или переходов с последовательной базовой потребностью пользователя. [4] [5]
Использует
Сеансы на пользователя можно использовать в качестве измерения использования веб-сайта. [6] [7] Другие показатели, используемые в исследованиях и прикладной веб-аналитике, включают продолжительность сеанса, [8] и действия пользователя за сеанс. [9] Продолжительность сеанса рассматривается как более точная альтернатива измерению просмотров страниц . [10]
Реконструированные сеансы также использовались для измерения общего пользовательского ввода, в том числе для измерения количества рабочих часов, затраченных на создание Википедии . [11] Сеансы также используются для операционной аналитики, анонимизации данных , выявления сетевых аномалий и создания синтетической рабочей нагрузки для тестирования серверов с искусственным трафиком. [12] [13]
Реконструкция сеанса
Существенным для использования сессий в веб-аналитике является возможность их идентификации. Это известно как «реконструкция сессии». Подходы к реконструкции сессии можно разделить на две основные категории: ориентированные на время и ориентированные на навигацию. [14]
Подходы, ориентированные на время
Ориентированные на время подходы к реконструкции сеанса ищут установленный период бездействия пользователя, обычно называемый «порогом бездействия». По достижении этого периода бездействия предполагается, что пользователь покинул сайт или полностью прекратил использовать браузер, и сеанс завершается. Дальнейшие запросы от того же пользователя считаются вторым сеансом. Общее значение для порога бездействия составляет 30 минут и иногда описывается как отраслевой стандарт. [15] [16] Некоторые утверждают, что порог в 30 минут приводит к появлению артефактов вокруг естественно длинных сеансов, и экспериментировали с другими порогами. [17] [18] Другие просто заявляют: «никакой временной порог не эффективен для идентификации [сеансов]». [19]
Одной из предложенных альтернатив является использование пороговых значений, специфичных для пользователя, а не единого глобального порогового значения для всего набора данных. [20] [21] Проблема в том, что пороговые значения предполагают бимодальное распределение , и это не подходит для наборов данных, которые охватывают длительный период времени. [17]
Подходы, ориентированные на навигацию
Ориентированные на навигацию подходы используют структуру веб-сайтов, в частности, наличие гиперссылок и тенденцию пользователей перемещаться между страницами на одном и том же веб-сайте, нажимая на них, а не вводя полный URL-адрес в своем браузере. [14] Один из способов идентификации сеансов с помощью просмотра этих данных — построение карты веб-сайта: если можно идентифицировать первую страницу пользователя, «сеанс» действий длится до тех пор, пока они не попадут на страницу, к которой нельзя получить доступ ни с одной из ранее посещенных страниц. Это учитывает возврат, когда пользователь будет повторять свои шаги, прежде чем открыть новую страницу. [22] Более простой подход, который не учитывает возврат, — просто потребовать, чтобы HTTP-реферер каждого запроса был страницей, которая уже находится в сеансе. Если это не так, создается новый сеанс. [23] Этот класс эвристик «демонстрирует очень низкую производительность» на веб-сайтах, содержащих наборы фреймов . [24]
Ссылки
^ аб Гайо-Авелло 2009, с. 1824.
^ Арлитт 2000, стр. 2.
^ Донато, Бончи и Чи 2010, стр. 324.
^ Гайо-Авелло 2009, стр. 1825.
^ Лэм, Рассел и Танг 2007, стр. 147.
^ Weischdel & Huizingh 2006, стр. 464.
^ Кэтледж и Питков 1995, стр. 5.
^ Янсен и Спинк 2006, стр. 10.
^ Янсен, Спинк и Сарацевич 2000, стр. 12.
^ Ху и др. 2008, стр. 377.
^ Гейгер и Халфакер 2014, стр. 1.
^ Мейсс и др. 2009, стр. 177.
^ Арлитт 2000, стр. 8.
^ аб Спилиопулу и др. 2003, с. 176.
^ Ортега и Агильо 2010, с. 332.
^ Эйкхофф и др. 2014, стр. 3.
^ аб Мехрзади и Фейтельсон 2012, стр. 3.
↑ Он, Гокер и Харпер 2002, стр. 733.
^ Джонс и Клинкнер 2008, с. 2.
^ Мюррей, Лин и Чоудхури 2006, стр. 3.
^ Мехрзади и Фейтельсон 2012, с. 1.
^ Кули, Мобашер и Шривастава 1999, стр. 19.
^ Кули, Мобашер и Шривастава 1999, стр. 23.
^ Берендт и др. 2003, с. 179.
Библиография
Арлитт, Мартин (2000). «Характеристика сеансов веб-пользователей» (PDF) . Обзор оценки производительности SIGMETRICS . 28 (2): 50– 63. doi :10.1145/362883.362920. S2CID 2946044.
Берендт, Беттина; Мобашер, Бамшад; Накагава, Мики; Спилиопулу, Майра (2003). "Влияние структуры сайта и пользовательской среды на реконструкцию сеанса при анализе использования веб-сайтов" (PDF) . WEBKDD 2002 - Извлечение веб-данных для обнаружения шаблонов и профилей использования . Конспект лекций по информатике. Том 2703. Springer. С. 159– 179. doi :10.1007/978-3-540-39663-5_10. ISBN978-3-540-39663-5.
Кэтледж, Л.; Питков, Дж. (1995). «Характеристика стратегий просмотра во Всемирной паутине» (PDF) . Компьютерные сети и системы ISDN . 27 (6): 1065– 1073. doi :10.1016/0169-7552(95)00043-7. S2CID 14313721.
Кули, Роберт; Мобашер, Бамшад; Шривастава, Джайдип (1999). «Подготовка данных для анализа шаблонов просмотра Всемирной паутины» (PDF) . Системы знаний и информации . 1 (1): 5– 32. CiteSeerX 10.1.1.33.2792 . doi :10.1007/BF03325089. ISSN 0219-3116. S2CID 1165622.
Донато, Дебора ; Бончи, Франческо; Чи, Том (2010). «Хотите делать заметки?: Определение исследовательских миссий в Yahoo! Search pad» (PDF) . Труды 19-й международной конференции по Всемирной паутине . ACM. С. 321– 330. doi :10.1145/1772690.1772724. ISBN9781605587998. S2CID 6951065.
Eickhoff, Carsten; Teevan, Jaime; White, Ryen; Dumais, Susan. (2014). «Уроки путешествия». Труды 7-й международной конференции ACM по веб-поиску и интеллектуальному анализу данных (PDF) . ACM. стр. 223–232 . doi :10.1145/2556195.2556217. ISBN9781450323512. S2CID 14666769.
Gayo-Avello, Daniel (2009). "Обзор методов обнаружения сеансов в журналах запросов и предложение по будущей оценке" (PDF) . Information Sciences . 179 (12): 1822– 1843. doi :10.1016/j.ins.2009.01.026. hdl : 10651/8686 . ISSN 0020-0255. Архивировано из оригинала (PDF) 2016-03-04 . Получено 2015-02-18 .
Geiger, RS; Halfaker, A. (2014). «Использование сеансов редактирования для измерения участия в Википедии». Труды конференции 2013 года по компьютерной поддержке совместной работы (PDF) . ACM. стр. 861– 870. doi :10.1145/2441776.2441873. ISBN9781450313315. S2CID 7166943.
Хе, Дацин; Гокер, Айс; Харпер, Дэвид Дж. (2002). «Объединение доказательств для автоматической идентификации веб-сеанса». Обработка и управление информацией . 38 (5): 727– 742. doi :10.1016/S0306-4573(01)00060-7. ISSN 0306-4573.
Хир, Джеффри; Чи, Эд Х. (2002). «Разделение роя: методы категоризации для сеансов пользователей в Интернете» (PDF) . Труды конференции SIGCHI по человеческому фактору в вычислительных системах . Том 4. ACM. С. 243–250 . doi :10.1145/503376.503420. ISBN1581134533. S2CID 14018957.
Хуан, Чиен-Кан; Чиен, Ли-Фэн; Оян, Йен-Джен (2003). «Предложение релевантных терминов в интерактивном веб-поиске на основе контекстной информации в журналах сеансов запросов». Журнал Американского общества информационной науки и технологий . 54 (7): 638– 649. CiteSeerX 10.1.1.105.5584 . doi :10.1002/asi.10256.
Янсен, Бернард Дж.; Спинк, Аманда; Сарацевич, Тефко (2000). «Реальная жизнь, реальные пользователи и реальные потребности: исследование и анализ пользовательских запросов в Интернете» (PDF) . Обработка и управление информацией . 36 (2): 207– 227. CiteSeerX 10.1.1.155.1383 . doi :10.1016/S0306-4573(99)00056-4. ISSN 0306-4573.
Янсен, Бернард Дж.; Спинк, Аманда (2006). «Как мы ищем во всемирной паутине? Сравнение девяти журналов транзакций поисковых систем» (PDF) . Обработка и управление информацией . 42 (1): 248– 263. doi :10.1016/j.ipm.2004.10.007. ISSN 0306-4573.
Джонс, Рози; Клинкнер, Кристина Лиза (2008). «За пределами тайм-аута сеанса: автоматическая иерархическая сегментация тем поиска в журналах запросов». Труды 17-й конференции ACM по управлению информацией и знаниями (PDF) . ACM. стр. 699–708 . doi :10.1145/1458082.1458176. ISBN9781595939913. S2CID 6548724.
Ху, Майкл; Пагано, Джо; Вашингтон, Энн Л.; Рекер, Мими; Палмер, Барт; Донахью, Роберт А. (2008). «Использование веб-показателей для анализа цифровых библиотек» (PDF) . Труды 8-й совместной конференции ACM/IEEE-CS по цифровым библиотекам . ACM.
Лэм, Хайди ; Рассел, Дэниел; Тан, Диана (2007). «Просмотр сеансов: Визуальный исследовательский анализ журналов веб-сеансов». Симпозиум IEEE по визуальной аналитике, науке и технологиям . IEEE.
Mehrzadi, David; Feitelson, Dror G. (2012). "On Extracting Session Data from Activity Logs" (PDF) . Труды 5-й ежегодной международной конференции по системам и хранилищам . SYSTOR '12. ACM. CiteSeerX 10.1.1.381.1956 . doi :10.1145/2367589.2367592. ISBN978-1-4503-1448-0. S2CID 8820623.
Мейсс, Марк; Дункан, Джон; Гонсалвес, Бруно; Рамаско, Хосе Х.; Менцер, Филиппо (2009). «Что в сеансе: отслеживание индивидуального поведения в Интернете» (PDF) . Труды 20-й конференции ACM по гипертексту и гипермедиа . ACM. стр. 173–182 . arXiv : 1003.5325 . doi : 10.1145/1557914.1557946. ISBN9781605584867. S2CID 6564335.
Menascé, Daniel A.; Almeida, V.; Fonseca, R.; Mendes, M. (1999). "Методология характеристики рабочей нагрузки сайтов электронной коммерции" (PDF) . Труды 1-й конференции ACM по электронной коммерции . ACM. стр. 119– 128. doi :10.1145/336992.337024. ISBN1581131763. S2CID 7239612.
Мюррей, Г. Крейг; Лин, Джимми; Чоудхури, Абдур (2006). «Идентификация сеансов пользователей с помощью иерархической агломеративной кластеризации» (PDF) . Труды Американского общества информационной науки и технологий . 43 (1): 1– 9. doi : 10.1002/meet.14504301312 .
Ортега, Дж. Л.; Агильо, И. (2010). «Различия между веб-сессиями в зависимости от источника их посещений» (PDF) . Журнал Informetrics . 4 (3): 331– 337. doi :10.1016/j.joi.2010.02.001. ISSN 1751-1577.
Спилиопулу, Майра; Мобашер, Бамшад; Берендт, Беттина; Накагава, Мики (2003). «Среда оценки эвристики реконструкции сеанса при анализе использования Интернета» (PDF) . ИНФОМС Журнал по вычислительной технике . 15 (2): 171–190 . CiteSeerX 10.1.1.621.3037 . дои : 10.1287/ijoc.15.2.171.14445. ISSN 1526-5528.
Weischdel, Birgit; Huizingh, Eelko KRE (2006). "Оптимизация веб-сайта с помощью веб-метрик". Труды 8-й международной конференции по электронной коммерции. Новая электронная коммерция: Инновации для преодоления текущих барьеров, препятствий и ограничений для успешного ведения бизнеса в Интернете - ICEC '06 (PDF) . стр. 463. doi :10.1145/1151454.1151525. ISBN978-1595933928. S2CID 2965255.