Обо мне
Имя: Душан Крехель
Родился: 1991, Прешов, Чехословакия
Жизнь: Прешовский край
Электронная почта: dusankrehel@gmail.com
Язык (родной): словацкий
Язык (понимать): чешский
Иностранные языки: немецкий, английский, хорватский
Социальные сети:
- Душан Крехель (Academia.edu)
Бот
Статьи
- Статистика Signpost с 2005 по 2022 год
- Я создал статистический анализ данных.
- Fintice (поменование)
- Этимология названия деревни Финтице.
- Финтис:
- О селе Финтице (Словакия).
- Почти весь контент создан мной.
- Флора Вышни Славков
Экспорт
- Проекты Википедии (сгруппированы по локальному проекту):
- Просмотры страниц пользователями (ежедневные) : 2024, 2023, 2022, 2021, 2020, 2019, 2018, 2017, 2016 и 2015-07-12.
- ТОП-2000 просмотров страниц пользователями : 2024, 2023.
Технологии
d0cmf
d0cmf – сокращенный формат нулевой матрицы Душана
Практика:
- Формат экспорта статистики просмотров страниц.
- Экспорт статистики просмотров страниц пользователем:
- сгруппировать по:
- дата: 2015-07 по 2023,
- общедоступно: https://archive.org/search?query=subject%3A%22d0cmf%22
Практическое сравнение (2023-01 по 2023-06)Оригинал | d0cmf |
---|
СЫРОЙ | бз2 | СЫРОЙ | бз2 |
---|
91531991545Б | 16923192176Б | 8272043931Б | 1415546226Б |
91,5 ГБ | 16,9 ГБ | 8.2 ГБ | 1,4 ГБ |
| 9% | 8% |
- Примечание: В практическом сравнении, в d0cmf, pagevies делятся в соответствии с локальной википедией и таким образом рассчитывается их размер. Источники: [1] [2].
Бонус для сообщества (если будет реализован):
- Статистика просмотров страниц:
- Меньший размер сжатия файлов.
- При сохранении – поддержка любого длительного интервала времени.
- Статистика магазина разделена по данным местной Википедии.
Базы данных ревизий
- В противном случае — хранение данных сайта.
- Кодировка строки ревизии : Из всех строк ревизии создается индекс строки, а затем ревизия является группой индексов строк. Индекс строки ревизии хранится в двоичном формате.
- Подробнее: https://archive.org/details/revision-database
Демонстрация на skwiki-20240101-pages-meta-history.xml.bz2 | Сейчас | Концепция |
---|
База данных | ~19ГБ | От 1 до 5 ГБ (от 5% до 26%) |
Экспорт (bz2) | ~2.8ГБ | ~1,1 ГБ (39%) |
Язык вики-страницы
Идея: стандартизировать язык Wiki-страниц и создать конвертер Wiki ⇒ HTML с DOM и API манипуляции DOM.
- Преимущества:
- Определение границ, где соотносятся бот и пользователь,
- лучшие инструменты для ботов
- один стандарт, один документ отслеживания изменений,
- поддержка таблицы MediaWiki в трехкомпонентном программном обеспечении.
Тестовые реализации (2022-12-09)
0.000 333 с | "двики" |
0.000 275 с | "редактор двики" |
0,016 512 с | Парсер Викимедиа |
1.260 279 с | Парсоид |
Более:
- [Wikitech-l] dwiki: конвертер из dwiki в HTML.
- ru:Пользователь:Душан Крехель/Signpost Draft:Мое представление о парсере вики-страниц.