Logstash - Инфраструктура как код

Logstash — это серверный инструмент для сбора, обработки, трансформации и доставки данных. Чаще всего — логов, но на практике он работает с любыми потоковыми данными.

Logstash является частью Elastic Stack (ELK) наряду с:

Elasticsearch — хранилище и поисковый движок
Kibana — визуализация и аналитика

Ключевая идея Logstash — выступать промежуточным слоем (pipeline) между источниками данных и системами хранения или анализа.

Типовой сценарий выглядит так:

Источник → Logstash → Хранилище / Аналитика

Источниками могут быть:

системные логи
application logs
журналы веб-серверов
метрики
события безопасности
данные из очередей, БД, API

На выходе это может быть:

Elasticsearch
Kafka
S3
ClickHouse
файл
syslog
любой другой поддерживаемый output

Содержание

Область применения Logstash
1. Централизованный сбор логов
2. Парсинг и нормализация данных
3. Потоковая обработка событий
4. Интеграция между системами
Архитектура Logstash
Input
Filter
Output
Преимущества Logstash над подобными системами
1. Гибкость обработки данных
2. Огромная экосистема плагинов
3. Независимость от Elastic (частично)
4. Предсказуемость и стабильность
Честно о минусах
1. Высокое потребление ресурсов
2. Сложность конфигураций
3. Не лучший выбор для edge-нод
Нагрузочная способность Logstash
Что влияет на производительность
Реальные цифры (в среднем)
Надёжность под нагрузкой
Варианты установки Logstash
1. Установка из пакетов (DEB / RPM)
2. Docker / Docker Compose
3. Kubernetes
4. Standalone binary
Когда Logstash — правильный выбор
Когда лучше выбрать альтернативу
Итог

Область применения Logstash

1. Централизованный сбор логов

Самый распространённый сценарий.

Logstash:

принимает логи с десятков и сотен хостов
нормализует формат
обогащает данные (IP → страна, hostname → окружение)
отправляет в единое хранилище

Актуально для:

микросервисов
Kubernetes
классических серверных ферм
гибридных инфраструктур

2. Парсинг и нормализация данных

Одна из сильнейших сторон Logstash — гибкая обработка данных.

Он умеет:

разбирать текстовые логи (grok)
парсить JSON, CSV, XML
работать с датами и таймзонами
приводить поля к нужным типам
фильтровать, переименовывать, удалять поля

Это особенно важно, когда:

логи приходят в «человеческом» виде
разные сервисы логируют по-разному
нужно привести всё к единому стандарту

3. Потоковая обработка событий

Logstash хорошо подходит для:

обработки событий в реальном времени
предварительной фильтрации
маршрутизации данных по условиям

Пример:

ошибки → Elasticsearch
access-логи → S3
security-events → SIEM

4. Интеграция между системами

Logstash часто используют как ETL-инструмент:

Kafka → Elasticsearch
S3 → Elasticsearch
MySQL → Elasticsearch (через jdbc input)
syslog → ClickHouse

Он не заменяет полноценные ETL-платформы, но для потоковых задач подходит отлично.

Архитектура Logstash

В основе Logstash лежит pipeline из трёх частей:

Input

Откуда приходят данные:

beats
tcp / udp
http
syslog
kafka
file
jdbc
redis и др.

Filter

Где происходит обработка:

grok
mutate
date
geoip
json
ruby (да, можно писать свой код)

Output

Куда данные уходят:

elasticsearch
kafka
file
s3
stdout
syslog
http

Эта модель делает Logstash:

прозрачным
гибким
расширяемым

Преимущества Logstash над подобными системами

1. Гибкость обработки данных

По возможностям трансформации Logstash до сих пор один из лидеров:

сложные условия
кастомная логика
полноценный pipeline

Многие альтернативы либо проще, либо жёстко ограничены.

2. Огромная экосистема плагинов

Logstash существует давно, и за это время получил:

сотни input/output/filter плагинов
активное сообщество
готовые конфигурации под популярные сервисы

Это снижает порог внедрения.

3. Независимость от Elastic (частично)

Хотя Logstash — часть Elastic Stack, он:

не требует обязательного Elasticsearch
может использоваться как универсальный брокер данных

На практике его часто ставят даже там, где Elasticsearch не используется.

4. Предсказуемость и стабильность

Logstash:

хорошо изучен
имеет понятные лимиты
стабилен при правильной настройке

В продакшене это важнее «модности».

Честно о минусах

Чтобы обзор был правдивым — без этого никак.

1. Высокое потребление ресурсов

Logstash написан на JVM, и это чувствуется:

требует много памяти
активно использует CPU при сложных фильтрах
плохо работает на слабых VPS

Для небольших проектов он может быть избыточным.

2. Сложность конфигураций

grok — мощный, но капризный
ошибки в фильтрах сложно отлаживать
большие конфиги тяжело поддерживать без дисциплины

Logstash — инструмент для инженеров, а не «кликалка».

3. Не лучший выбор для edge-нод

На хостах с малым объёмом ресурсов:

лучше использовать Filebeat / Fluent Bit
а Logstash оставить для центрального узла

Нагрузочная способность Logstash

Что влияет на производительность

Тип input/output
Количество и сложность фильтров
JVM-настройки
Размер batch и pipeline workers
Скорость downstream-системы

Реальные цифры (в среднем)

При адекватной настройке один инстанс Logstash способен:

десятки тысяч событий в секунду
в простых сценариях — 100–200k events/sec
при сложных grok-фильтрах — существенно меньше

Logstash масштабируется горизонтально:

несколько инстансов
балансировка через Kafka / Beats
разные pipeline под разные типы данных

Надёжность под нагрузкой

поддерживает persistent queue
не теряет данные при рестартах (если включено)
умеет backpressure

Но важно:

Logstash — не брокер сообщений, а обработчик. Для экстремальных нагрузок его часто комбинируют с Kafka.

Варианты установки Logstash

1. Установка из пакетов (DEB / RPM)

Классический вариант:

systemd-сервис
удобен для серверов
подходит для bare metal и VM

2. Docker / Docker Compose

Популярный вариант:

легко деплоить
удобно обновлять
хорошо ложится в CI/CD

Минус — нужно аккуратно работать с volume и памятью JVM.

3. Kubernetes

Используется в:

больших кластерах
централизованных logging-стэках

Обычно:

DaemonSet для лёгких агентов
Logstash — как отдельный сервис

4. Standalone binary

Редко, но возможно:

для тестов
для временных задач
для отладки pipeline

Когда Logstash — правильный выбор

Logstash отлично подходит, если:

у вас сложные логи
нужна глубокая обработка данных
есть Elasticsearch или планируется аналитика
нагрузка уже вышла за рамки «одного сервера»

Когда лучше выбрать альтернативу

Стоит подумать о другом инструменте, если:

нужны лёгкие агенты на каждом хосте
инфраструктура очень большая (Kafka-first)
требования к latency минимальны
серверы с ограниченными ресурсами

В таких случаях Logstash часто используют в связке, а не как единственный элемент.

Итог

Logstash — мощный, зрелый и честно тяжёлый инструмент.
Он не самый простой и не самый лёгкий, но:

отлично решает задачи централизованного логирования
даёт гибкость, которой часто нет у альтернатив
хорошо масштабируется при правильной архитектуре

Это не «серебряная пуля», а рабочая лошадка, которая оправдывает себя в продакшене годами.