Статистика сайта по логам веб-сервера
Сейчас глобально существует 2 метода сбора статистики о собственном сайте: через скрипт на каждой странице сайта, который отсылает данные поставщику статистики, например, Google Analytics; через анализ лог-файлов сервера, в которые фиксируются все запросы и ответы сервера. Оба способа имеют свои плюсы и минусы, и, несомненно, должны работать параллельно. К сожалению, в последнее время, с развитием Яндекс Метрики и Google Analytics, про анализ логов сервера все забыли (хотя многие хостеры до сих пор по-умолчанию оставляют возможность просмотра такой статистики). Сегодня мы сравним плюсы и минусы этих способов получения данных.
Плюсы и минусы статистики сайта по логам и тегам
По сути, это разница между системами web-аналитики, использующими различные подходы. Например, Google Analytics и AWStats.
В книге
Метод |
Преимущества |
Недостатки |
Страничные теги (например, Google Analytics, Яндекс Метрика) |
Позволяют разграничивать прокси- и кеширующие серверы – обеспечивается более точное отслеживание сеанса. | Требуется больше изменений в веб-страницах. Чтобы собирать данные, приходится вносить изменения в страницы веб-сайта. |
Отслеживание событий на стороне клиента – например, JavaScript, Flash, Ajax. | Ошибки настройки ведут к потере данных. Ошибки в тегах ведут к потере данных без возможности возврата и повторного анализа. | |
Фиксирование данных электронной торговли на стороне клиента – доступ на стороне сервера бывает проблематичным. | Брандмауэры могут исказить или ограничить теги. | |
Сбор и обработка данных о посетителях почти в реальном времени. | Невозможность отслеживания пропускной способности или совершения загрузок – теги выполняются при запросе страницы или файла, а не при завершении загрузки. | |
Позволяет поставщику проводить обновления программы. | Невозможность отслеживания “пауков” поисковых систем – роботы игнорируют теги. | |
Позволяет поставщику сохранять и архивировать данные. | ||
Программа анализа журнальных файлов (Например, AWStats, Analog, Webalizer) |
Автоматический сбор данных. Никакие изменения веб-страниц не требуются. | Погрешности, вызванные применением прокси- и кешириующих серверов. Если страница кешируется, никакая запись не заносится в журнал веб-сервера. |
Легкость обработки данных об истории посещенных страниц. | Отсутствие отслеживания событий – например, JavaScript, Flash, Ajax. | |
Отсутствие необходимости беспокоится о проблемах, связанных с брандмауэром. | Необходимость выполнения обновления программы собственными силами. | |
Возможность отслеживания пропускной способности и завершенных загрузок, а также различения полностью и частично завершенных загрузок. | Роботы увеличивают количество посещений, и это увеличение может быть значительным. | |
Выполнение по умолчанию отслеживания “пауков” и роботов поисковых систем. | ||
Выполнение по умолчанию отслеживания посетителей, использующих мобильные устройства с доступом в Интернет. |
Системы статистики по логам могут компенсировать проблемы систем статистики на основе страничных тегов (таких, как Google Analytics).
Несомненно, для полной картины происходящего на сайте имеет смысл настроить и использовать обе системы статистики. Важно то, что сравнивать результаты между ними – бессмысленно. Можно лишь сравнивать динамику развития событий в каждой из систем.
Программы статистики по серверным логам
Существуют следующие программы для анализа серверных логов:
AWStats, Piwik, Analog, Webalizer — открытые и Log Parser, Semonitor – лицензируемые, и другие.
Самой популярной, пожалуй, является бесплатная система
Интерфейс приложения AWStats выглядит примерно следующим образом:
В одном из следующих постов я опишу процесс установки скрипта AWStats на выделенный сервер (конечно, на примере любимого