Пользователь:Душан Крехель

Обо мне

Имя: Душан Крехель
Родился: 1991, Прешов, Чехословакия
Жизнь: Прешовский край
Электронная почта: dusankrehel@gmail.com
Язык (родной): словацкий
Язык (понимать): чешский
Иностранные языки: немецкий, английский, хорватский
Социальные сети:

  • Душан Крехель (Academia.edu)

Бот

Статьи

  • Статистика Signpost с 2005 по 2022 год
    • Я создал статистический анализ данных.
  • Fintice (поменование)
    • Этимология названия деревни Финтице.
  • Финтис:
    • О селе Финтице (Словакия).
    • Почти весь контент создан мной.
  • Флора Вышни Славков

Экспорт

  • Проекты Википедии (сгруппированы по локальному проекту):
    • Просмотры страниц пользователями (ежедневные) : 2024, 2023, 2022, 2021, 2020, 2019, 2018, 2017, 2016 и 2015-07-12.
    • ТОП-2000 просмотров страниц пользователями : 2024, 2023.

Технологии

d0cmf

d0cmf – сокращенный формат нулевой матрицы Душана

Практика:

  • Формат экспорта статистики просмотров страниц.
  • Экспорт статистики просмотров страниц пользователем:
  • сгруппировать по:
    • местная википедия,
    • год,
  • дата: 2015-07 по 2023,
  • общедоступно: https://archive.org/search?query=subject%3A%22d0cmf%22
Практическое сравнение (2023-01 по 2023-06)
Оригиналd0cmf
СЫРОЙбз2СЫРОЙбз2
91531991545Б16923192176Б8272043931Б1415546226Б
91,5 ГБ16,9 ГБ8.2 ГБ1,4 ГБ
9%8%
Примечание: В практическом сравнении, в d0cmf, pagevies делятся в соответствии с локальной википедией и таким образом рассчитывается их размер. Источники: [1] [2].

Бонус для сообщества (если будет реализован):

  • Статистика просмотров страниц:
    • Меньший размер сжатия файлов.
    • При сохранении – поддержка любого длительного интервала времени.
    • Статистика магазина разделена по данным местной Википедии.

Базы данных ревизий

  • В противном случае — хранение данных сайта.
  • Кодировка строки ревизии : Из всех строк ревизии создается индекс строки, а затем ревизия является группой индексов строк. Индекс строки ревизии хранится в двоичном формате.
  • Подробнее: https://archive.org/details/revision-database
Демонстрация на skwiki-20240101-pages-meta-history.xml.bz2
СейчасКонцепция
База данных~19ГБОт 1 до 5 ГБ
(от 5% до 26%)
Экспорт (bz2)~2.8ГБ~1,1 ГБ
(39%)

Язык вики-страницы

Идея: стандартизировать язык Wiki-страниц и создать конвертер Wiki ⇒ HTML с DOM и API манипуляции DOM.

  • Преимущества:
    • Определение границ, где соотносятся бот и пользователь,
    • лучшие инструменты для ботов
    • один стандарт, один документ отслеживания изменений,
    • поддержка таблицы MediaWiki в трехкомпонентном программном обеспечении.

Тестовые реализации (2022-12-09)

0.000 333 с"двики"
0.000 275 с"редактор двики"
0,016 512 сПарсер Викимедиа
1.260 279 сПарсоид

Более:

  • [Wikitech-l] dwiki: конвертер из dwiki в HTML.
  • ru:Пользователь:Душан Крехель/Signpost Draft:Мое представление о парсере вики-страниц.
Взято с "https://en.wikipedia.org/wiki/User:Dušan_Kreheľ"