Архив автора: admin

Осваиваем мониторинг с Prometheus. Часть 2. PromQL и метки

В прошлой статье я говорил, что Prometheus — это не готовое решение, а скорее фреймворк. Чтобы использовать его возможности полноценно, надо разбираться. Что ж, начнём.




PromQL — это про то, как вытаскивать метрики не из экспортеров, а уже из самого Prometheus’а. Например, чтобы узнать сколько ядер у процессора, надо написать:




count(count(node_cpu_seconds_total) without (mode)) without (cpu)




PromQL дословно расшифровывается как Prometheus query language, т.е. язык запросов. Он не имеет ничего общего с SQL, это принципиально другой язык. Поначалу он казался мне каким-то запутанным, а документация не особо помогала. Потихоньку разобрался и мне даже понравилось.







Пробуем простые запросы




Prometheus server хранит все данные в виде временных последовательностей (time series). Каждая временная последовательность определяется именем метрики и набором меток (labels) типа ключ-значение (key-value). Давайте сразу посмотрим несколько примеров в Prometheus web UI. Напомню, он работает на localhost:9090. Чтобы не городить скриншотов, я буду показывать запросы в своём псевдо-терминале, а вы не ленитесь и пробуйте у себя.




Expression: node_load1
0.96node_load1{instance="localhost:9100",job="node"}




node_load1 — имя метрики,
instance и job — имена меток,
localhost:9100 и node — соответствующие значения меток,
0.96 — значение метрики.




Можно запустить какой-нибудь top и убедиться в том, что одноминутный load average на локалхосте действительно равен 0.96.




Если у вас несколько машин, результат будет интереснее:




Expression: node_load1
0.96node_load1{instance="localhost:9100",job="node"}
0.44node_load1{instance="anotherhost:9100",job="node"}




Prometheus разрабатывался так, чтобы наблюдать за группой машин было так же легко, как за одной. И метки этому способствуют. Прежде всего они позволяют фильтровать вывод:




Expression: node_load1{instance='localhost:9100'}
0.96node_load1{instance="localhost:9100",job="node"}

Expression: node_load1{instance!='localhost:9100'}
0.44node_load1{instance="anotherhost:9100",job="node"}

Expression: node_load1{job='node'}
0.96node_load1{instance="localhost:9100",job="node"}
0.44node_load1{instance="anotherhost:9100",job="node"}




Кроме = и != есть ещё совпадение и несовпадение с регулярным выражением: =~!~. Лирическое отступление: мне не нравится одинарное равно для точного сопадения. Это против правил. Должно быть двойное! Эх, молодёжь… А вот разницы в кавычках я не заметил: одинарные и двойные работают одинаково. Да, если задать несколько условий, они будут объединяться логическим И.




Возьмём другой пример. Посмотрим свободное место на дисках:




Expression: node_filesystem_avail_bytes
node_filesystem_avail_bytes{device="/dev/nvme0n1p1",fstype="vfat",instance="localhost:9100",job="node",mountpoint="/boot"}  143187968
node_filesystem_avail_bytes{device="/dev/nvme0n1p2",fstype="ext4",instance="localhost:9100",job="node",mountpoint="/"}      340473708544
node_filesystem_avail_bytes{device="/dev/sda1",fstype="ext4",instance="anotherhost:9100",job="node",mountpoint="/"}         429984710656
node_filesystem_avail_bytes{device="run",fstype="tmpfs",instance="localhost:9100",job="node",mountpoint="/run"}             4120506368
node_filesystem_avail_bytes{device="tmpfs",fstype="tmpfs",instance="localhost:9100",job="node",mountpoint="/tmp"}           4109291520
node_filesystem_avail_bytes{device="tmpfs",fstype="tmpfs",instance="anotherhost:9100",job="node",mountpoint="/run"}         104542208




В байтах получаются огромные непонятные числа, но сейчас не обращайте на это внимания — мы упражняемся в запросах.




Можно получить свободное место в процентах:




Expression: node_filesystem_avail_bytes / node_filesystem_size_bytes * 100
{device="/dev/nvme0n1p1",fstype="vfat",instance="localhost:9100",job="node",mountpoint="/boot"}  54.17850016466805
{device="/dev/nvme0n1p2",fstype="ext4",instance="localhost:9100",job="node",mountpoint="/"}      73.94176693455515
{device="/dev/sda1",fstype="ext4",instance="anotherhost:9100",job="node",mountpoint="/"}         68.54660550632083
{device="run",fstype="tmpfs",instance="localhost:9100",job="node",mountpoint="/run"}             99.96800174897272
{device="tmpfs",fstype="tmpfs",instance="localhost:9100",job="node",mountpoint="/tmp"}           99.69591724179051
{device="tmpfs",fstype="tmpfs",instance="anotherhost:9100",job="node",mountpoint="/run"}         99.83961821311219




tmpfs — это не про диск, уберём его:




Expression: node_filesystem_avail_bytes{fstype!='tmpfs'} / node_filesystem_size_bytes{fstype!='tmpfs'} * 100
{device="/dev/nvme0n1p1",fstype="vfat",instance="localhost:9100",job="node",mountpoint="/boot"}  54.17850016466805
{device="/dev/nvme0n1p2",fstype="ext4",instance="localhost:9100",job="node",mountpoint="/"}      73.94172957355208
{device="/dev/sda1",fstype="ext4",instance="anotherhost:9100",job="node",mountpoint="/"}         68.5466042003818




Не обязательно указывать одинаковый фильтр для всех операндов, как я только что сделал. Достаточно одного, а дальше Prometheus сам возьмёт пересечение по меткам. Следовательно, последний запрос можно с чистой совестью сократить до такого:




Expression: node_filesystem_avail_bytes{fstype!='tmpfs'} / node_filesystem_size_bytes * 100
или
Expression: node_filesystem_avail_bytes / node_filesystem_size_bytes{fstype!='tmpfs'} * 100




Мы получили свободное место в процентах, но как-то привычнее другая величина — занятое место в процентах:




Expression: 100 - node_filesystem_avail_bytes{fstype!='tmpfs'} / node_filesystem_size_bytes * 100
или
Expression: (1 - node_filesystem_avail_bytes{fstype!='tmpfs'} / node_filesystem_size_bytes) * 100
{device="/dev/nvme0n1p1",fstype="vfat",instance="localhost:9100",job="node",mountpoint="/boot"}  45.82149983533195
{device="/dev/nvme0n1p2",fstype="ext4",instance="localhost:9100",job="node",mountpoint="/"}      26.05827042644792
{device="/dev/sda1",fstype="ext4",instance="anotherhost:9100",job="node",mountpoint="/"}         31.453395799618207




Как видите, можно умножать или делить на скаляр и не важно что это: константа или результат вычисления. Вообще я заметил, что в PromQL действует правило: пиши осмысленные запросы и всё будет хорошо. Не надо пытаться сложить диск с процессором и делить на память.




Агрегация




По меткам можно делать агрегацию. Смысл агрегации в том, чтобы объединить несколько однотипных метрик в одну. Например, посчитать максимальный (или средний) load average среди машин определённой группы.




Expression: foo by (label) (some_metric_name)
или
Expression: foo(some_metric_name) by (label)




Синтаксис непривычный, но вроде ничего. Все эти скобочки являются обязательными, без них работать не будет. Пробуем на нашем load average:




Expression: avg by (job)(node_load1)
0.7{job="node"}

Expression: max by (job)(node_load1)
0.96{job="node"}

Expression: min by (job)(node_load1)
0.44{job="node"}

Expression: sum by (job)(node_load1)
1.4{job="node"}

Expression: count by (job)(node_load1)
2{job="node"}




Метки работают как измерения в многомерном пространстве. Агрегация с использованием by как бы схлопывает все измерения, кроме указанного. В примере с node_load1 это не очень заметно, потому что у меня мало меток и хостов. Ок, вот пример получше:




Expression: node_cpu_seconds_total
27687.16node_cpu_seconds_total{cpu="0",instance="localhost:9100",job="node",mode="idle"}
349.98node_cpu_seconds_total{cpu="0",instance="localhost:9100",job="node",mode="iowait"}
0node_cpu_seconds_total{cpu="0",instance="localhost:9100",job="node",mode="irq"}
4.5node_cpu_seconds_total{cpu="0",instance="localhost:9100",job="node",mode="nice"}
342.47node_cpu_seconds_total{cpu="0",instance="localhost:9100",job="node",mode="softirq"}
0node_cpu_seconds_total{cpu="0",instance="localhost:9100",job="node",mode="steal"}
734.43node_cpu_seconds_total{cpu="0",instance="localhost:9100",job="node",mode="system"}
2386.23node_cpu_seconds_total{cpu="0",instance="localhost:9100",job="node",mode="user"}
27613.56node_cpu_seconds_total{cpu="1",instance="localhost:9100",job="node",mode="idle"}
328.26node_cpu_seconds_total{cpu="1",instance="localhost:9100",job="node",mode="iowait"}
...




Эта метрика показывает сколько времени каждое ядро работало в каждом режиме. В сыром виде от неё никакого толку, но сейчас это не важно. Важно, что у неё куча меток: cpuinstancejobmode.




Expression: max by (instance) (node_cpu_seconds_total)
18309.45{instance="localhost:9100"}
3655352.98{instance="anotherhost:9100"}

Expression: max by (instance, cpu) (node_cpu_seconds_total)
17623.34{cpu="3",instance="localhost:9100"}
18295.97{cpu="0",instance="localhost:9100"}
3529407.76{cpu="0",instance="anotherhost:9100"}
18252.21{cpu="1",instance="localhost:9100"}
3655379.15{cpu="1",instance="anotherhost:9100"}
18334{cpu="2",instance="localhost:9100"}

Expression: max without (mode) (node_cpu_seconds_total)
3655736.46{cpu="1",instance="anotherhost:9100",job="node"}
18752.74{cpu="2",instance="localhost:9100",job="node"}
18022.19{cpu="3",instance="localhost:9100",job="node"}
18716.18{cpu="0",instance="localhost:9100",job="node"}
3529779.38{cpu="0",instance="anotherhost:9100",job="node"}
18670.74{cpu="1",instance="localhost:9100",job="node"}




Оператор without работает как by, но в другую сторону, по принципу: “что получится, если убрать такую-то метку”. На практике лучше использовать именно without, а не by. Почему? Дело в том, что Prometheus позволяет навесить кастомных меток при объявлении таргетов, например разный env для машин тестового и боевого окружений (как это сделать). При составлении запроса вы заранее не знаете какие дополнительные метки есть у метрики и есть ли они вообще. А если и знаете, то не факт, что их число не изменится в будущем… В любом случае при использовании by все метки, которые не были явно перечислены, пропадут при агрегации. Это скорее всего будет некритично в дашбордах, но будет неприятностью в алертах. Так что лучше подумать дважды, прежде чем использовать by. Попробуйте самостоятельно поиграться с агрегациями и понять как формируется результат. Полный список агрегирующих операторов вы найдёте в документации.




Считаем ядра




В принципе у вас уже достаточно знаний, чтобы самостоятельно посчитать ядра процессора, но я всё равно покажу. Для решения задачи нам нужна метрика node_cpu_seconds_total и оператор count, который показывает сколько значений схлопнулось при агрегации:




Expression: count(node_cpu_seconds_total) without (cpu)
4{instance="localhost:9100",job="node",mode="user"}
2{instance="anotherhost:9100",job="node",mode="iowait"}
2{instance="anotherhost:9100",job="node",mode="softirq"}
2{instance="anotherhost:9100",job="node",mode="system"}
2{instance="anotherhost:9100",job="node",mode="user"}
4{instance="localhost:9100",job="node",mode="system"}
2{instance="anotherhost:9100",job="node",mode="irq"}
4{instance="localhost:9100",job="node",mode="idle"}
4{instance="localhost:9100",job="node",mode="irq"}
4{instance="localhost:9100",job="node",mode="nice"}
4{instance="localhost:9100",job="node",mode="softirq"}
2{instance="anotherhost:9100",job="node",mode="nice"}
4{instance="localhost:9100",job="node",mode="iowait"}
2{instance="anotherhost:9100",job="node",mode="idle"}
2{instance="anotherhost:9100",job="node",mode="steal"}
4{instance="localhost:9100",job="node",mode="steal"}




Результат получился правильный, но хочется видеть лишь две строчки: одну для localhost и вторую для anotherhost. Для этого предварительно надо избавиться от метки mode любым из способов:




Expression: count(node_cpu_seconds_total) without (mode)
или
Expression: max(node_cpu_seconds_total) without (mode)




Итоговый запрос:




Expression: count(count(node_cpu_seconds_total) without (mode)) without (cpu)
4{instance="localhost:9100",job="node"}
2{instance="anotherhost:9100",job="node"}




Да, мне тоже кажется, что получение простой по смыслу метрики (число ядер) выглядит как-то заковыристо. Как будто мы ухо ногой чешем. Привыкайте.




Мгновенный и диапазонный вектор




Простите, я не смог придумать лучшего перевода. В оригинале это называется instant and range vector. Сейчас мы смотрели только мгновенные вектора, т.е. значения метрик в конкретный момент времени. Почему вообще результат запроса называется вектором? Вспоминаем, что Prometheus ориентирован на работу с группами машин, не с единичными машинами. Запросив какую-то метрику, в общем случае вы получите не одно значение, а несколько. Вот и получается вектор (с точки зрения алгебры, а не геометрии). Возможно, если погрузиться в исходный код Prometheus, всё окажется сложнее, но, к счастью, в этом нет необходимости.




Диапазонный вектор (range vector) — это вектор, который хранит диапазон значений метрики за определённый период времени. Он нужен, когда этого требует арифметика запроса. Проще всего объяснить на графике функции avg_over_time от чего-нибудь. В каждый момент времени она будет вычислять усреднённое значение метрики за предыдущие X минут (секунд, часов…). По-научному это называется “скользящее среднее” (moving average). На словах как-то сложно получается, лучше взгляните на эти 2 графика:







Оранжевый получен из зелёного усреднением за 10 минут. Да, это был мой любимый load average:




Expression: avg_over_time(node_load1{instance='localhost:9100'}[10m])
{instance="localhost:9100",job="node"}  0.23




Собственно, диапазонный вектор — это когда мы дописываем временной интервал в квадратных скобочках. Интервал времени для диапазонного вектора указывается очень по-человечески: 1s — одна секунда, 1m — одна минута, 1h — один час, 1d — день. А что, если нужно указать полтора часа? Просто напишите 90m.




Домашнее задание: посмотрите на графики max_over_time и min_over_time.




Типы метрик




Метрики бывают разных типов. Это важно, потому что для разных типов метрик применимы те или иные запросы.




Шкала (gauge). Самый простой тип метрик. Примеры: количество свободной/занятой ОЗУ, load average и т.д.




Счётчик (counter). Похож на шкалу, но предназначен совершенно для других данных. Счётчик может только увеличиваться, поэтому он подходит только для тех метрик, которые по своей природе могут только увеличиваться. Примеры: время работы CPU в определённом режиме (user, system, iowait…), количество запросов к веб-серверу, количество отправленных/принятых сетевых пакетов, количество ошибок. На практике вас не будет интересовать абсолютное значение счётчика, вас будет интересовать первая производная по времени, т.е. скорость роста этого счётчика, например количество запросов в минуту или количество ошибок за день.




Гистограмма (histogram). Я пока не сталкивался с таким типом, поэтому ничего путного не скажу.




Саммари (summaries). Что-то похожее на гистограммы, но другое.




Смотрим счётчики




Посмотрим счётчики на примере сетевого трафика:




Expression: node_network_receive_bytes_total{instance='localhost:9100'}
node_network_receive_bytes_total{device="br-03bbefe4ab97",instance="localhost:9100",job="node"}  0
node_network_receive_bytes_total{device="docker0",instance="localhost:9100",job="node"}          0
node_network_receive_bytes_total{device="lo",instance="localhost:9100",job="node"}               16121707
node_network_receive_bytes_total{device="vethab0ac76",instance="localhost:9100",job="node"}      0
node_network_receive_bytes_total{device="vethd3da657",instance="localhost:9100",job="node"}      0
node_network_receive_bytes_total{device="wlp3s0",instance="localhost:9100",job="node"}           4442690377




Сырое значение счётчика не несёт никакого смысла, его надо оборачивать функцией rate или irate. Эти функции принимают на вход диапазонный вектор, поэтому правильный запрос выглядит так:




Expression: rate(node_network_receive_bytes_total{device="wlp3s0"}[5m])
node_network_receive_bytes_total{device="wlp3s0",instance="localhost:9100",job="node"}  1210.6877192982456

Expression: irate(node_network_receive_bytes_total{device="wlp3s0"}[5m])
node_network_receive_bytes_total{device="wlp3s0",instance="localhost:9100",job="node"}  1210.6877192982456




В чём разница между rate и irate? Первая функция для вычисления производной берёт весь диапазон (5 минут в нашем случае), а вторая берёт лишь два последних сэмпла из всего диапазона, чтобы максимально приблизиться к мгновенному значению (первоисточник). Собственно, её название расшифровывается как instant rate.




Почему мы берём диапазонный вектор за 5 минут, а не за 1 или 10? Не знаю. Почему-то так делают во всех примерах и в дашборде Node exporter full тоже так. Для rate получается, что чем меньше интервал, тем больше пиков, а чем больше интервал, тем сильнее их сглаживание. Ну, с математикой не поспоришь. Для irate величина диапазона не имеет значения. На самом деле при определённых обстоятельствах всё-таки имеет, но это настолько тонкий нюанс, что на него можно забить.




Другой вопрос: 1210 — это в каких попугаях? Во-первых смотрим исходную метрику, там явно написано bytes. Функция rate делит исходную размерность на секунды, получается байт в секунду. Вообще Prometheus предпочитает стандартные единицы измерения: секунды, метры, ньютоны и т.п. Как в школе на уроках физики.




Считаем загрузку процессора




С памятью, диском и трафиком понятно, а как посмотреть загрузку процессора? Отвечаю. То, что мы привыкли считать загрузкой процессора в процентах на самом деле вот какая штука: сколько времени (в процентном отношении) процессор не отдыхал, т.е. не находился в режиме idle.




Итак, всё начинается с метрики node_cpu_seconds_total. Сначала посмотрим сколько времени процессор отдыхал:




Expression: irate(node_cpu_seconds_total{mode="idle"}[5m])
{cpu="0",instance="anotherhost:9100",job="node",mode="idle"}  0.5654385964909013
{cpu="0",instance="localhost:9100",job="node",mode="idle"}    0.9553684210526338
{cpu="1",instance="anotherhost:9100",job="node",mode="idle"}  0.5772631578931683
{cpu="1",instance="localhost:9100",job="node",mode="idle"}    0.9684912280701705
{cpu="2",instance="localhost:9100",job="node",mode="idle"}    0.9665614035087696
{cpu="3",instance="localhost:9100",job="node",mode="idle"}    0.9668421052631616




Возьмём среднее значение по ядрам и переведём в проценты:




Expression: avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) without (cpu) * 100
{instance="anotherhost:9100",job="node",mode="idle"}  49.67368421054918
{instance="localhost:9100",job="node",mode="idle"}    96.87368421052636




Ну и наконец получим загрузку процессора:




Expression: 100 - avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) without (cpu) * 100
{instance="anotherhost:9100",job="node",mode="idle"}  49.21052631578948
{instance="localhost:9100",job="node",mode="idle"}    3.458771929824593




Любопытно, что сумма всех режимов работы процессора никогда не доходит до 100% времени:




Expression: sum (irate(node_cpu_seconds_total[5m])) without (mode)
{cpu="0",instance="anotherhost:9100",job="node"}  0.9739999999999347
{cpu="0",instance="localhost:9100",job="node"}    0.9991578947368495
{cpu="1",instance="anotherhost:9100",job="node"}  0.9083157894731189
{cpu="1",instance="localhost:9100",job="node"}    0.9985964912280734
{cpu="2",instance="localhost:9100",job="node"}    0.998456140350873
{cpu="3",instance="localhost:9100",job="node"}    0.9983508771929828




Почему так? Хороший вопрос. Я подозреваю, что оставшаяся часть времени уходит на переключение контекста процессора. Получается, что загрузка процессора, полученная по формуле выше, будет чуть-чуть завышенной. В действительности можно не переживать по этому поводу, потому что погрешность получается незначительная. Это просто у меня anotherhost работает на старом процессоре Intel Atom. На нормальных взрослых процессорах погрешность не превышает десятые доли процента.




И это всё?




Думаю, на сегодня достаточно. Да, я рассказал не про все возможности PromQL. Например, за кадром остались операторы ignoring и on, логические and и or а также сдвиг offset. Есть всякие интересности типа производной по времени deriv или предсказателя будущего predict_linear. При желании вы сможете почитать про них в документации: операторы и функции. Я же вернусь к ним, когда мы будем решать практические задачи мониторинга.







Источник: https://laurvas.ru/prometheus-p2/



2021-08-16T10:26:10
Software

Осваиваем мониторинг с Prometheus. Часть 1. Знакомство и установка

Мониторинг — это сбор метрик и представление этих метрик в удобном виде (таблицы, графики, шкалы, уведомления, отчёты). Концептуально его можно изобразить в таком виде:







Метрики — это абстракция, с которой мы имеем дело, когда говорим о мониторинге. Это какие-то числа, описывающие состояние интересующей нас штуковины. Самый простой и понятный мониторинг следит за ресурсами компьютера: загрузкой процессора, памяти, диска, сети. Аналогично можно следить за чем-то более высокоуровневым, вроде количества посетителей на сайте или среднего времени ответа сервера. Для компьютера это один хрен безликие числа.




Мониторинг — это инструмент анализа того, что происходит/происходило в системе. Следовательно, без понимания смысла собранных данных мониторинг вам не особо поможет. И наоборот: в умелых руках это мощный инструмент.




Чем больше компонентов в вашей системе (микросервисов), чем больше нагрузка на неё, чем дороже время простоя, тем важнее иметь хорошую систему мониторинга.




То, что не метрики — то логи. Их тоже надо собирать и анализировать, но это отдельная история со своими инструментами.




Сейчас модно делать мониторинг на основе Prometheus. Так ли он хорош на самом деле? На мой взгляд это лучшее, что сейчас есть из мониторинга. Оговорюсь сразу для тех, кто хочет с этим поспорить: я понимаю, что разным задачам — разные инструменты и где-то больше подходит старый проверенный Nagios. Но в целом лидирует Prometheus.




Prometheus — это не готовое решение в духе “поставил и работает” (привет, Netdata). Это платформа, набор инструментов, позволяющий сделать себе такой мониторинг, какой надо. Фреймворк, если хотите.




Эта статья про знакомство с Prometheus’ом и установку. Потом будет интереснее — про настройку непосредственно мониторинга.







Архитектура Prometheus




Prometheus состоит из отдельных компонентов, которые общаются друг с другом по http. Всё модно-молодёжно, с веб-интерфейсами и настраивается в yaml-конфигах.







  • Prometheus server — центральное звено. Здесь хранятся собранные метрики, плюс имеется простенький веб-интерфейс, чтобы на них смотреть (Prometheus web UI).
  • Агенты, собирающие метрики и предоставляющие их в понятном для Prometheus’а виде. В зависимости от контекста называются экспортерами (exporter) или таргетами (target). Устанавливаются на целевые машины. Типичный представитель — node_exporter — собирает данные о вычислительных ресурсах: загрузку процессора, памяти, диска и т.п. Есть куча других экспортеров. Например, cadvisor собирает данные о контейнерах. Есть экспортеры для Postgres’а, для Nginx’а и т.д. С точки зрения самого Prometheus’а они ничем принципиально не отличаются друг от друга, просто каждый собирает какие-то свои метрики. Можно писать свои экспортеры, если ничего из готового вам не подходит.
  • Alertmanager — уведомлятор. Это он отправит письмо вам на почту, если что-то сломается. Из коробки умеет в почту, Slack, Hipchat, Pagerduty. Сторонними средствами можно прикрутить Telegram и наверное что-то ещё.
  • Grafana строго говоря не является частью Prometheus’а, но все её ставят и официальная документация рекомендует поступать именно так. Показывает красивые графики. Кучка графиков, собранных на одном экране, называется дашбордом (dashboard). Типа такого:







Установка




Все компоненты Prometheus’а написаны на Go и представляют собой статически скомпиленные бинари, не требующие никаких зависимостей кроме libc и готовые запускаться на любой платформе, будь то Debian, Arch или Centos. Установить их можно аж тремя способами:




  • по-старинке через пакетный менеджер,
  • взять готовые бинари с оф. сайта и засунуть их в систему в обход пакетного менеджера,
  • развернуть всё в докер-контейнерах.




Разумеется, у каждого способа есть свои преимущества и недостатки.




Если ставить через пакетный менеджер, то через него же вы будете получать обновления и сможете всё удалить. Однако есть нюанс. У Prometheus’а нет своих собственных репозиториев для популярных дистрибутивов, а официальные репозитории Debian/Ubuntu как всегда отстают от апстрима. Например, сейчас в Debian доступна версия 2.7.1, когда Prometheus уже 2.11.1. Arch Linux — молодец, идёт в ногу со временем.




При установке вручную Prometheus не будет числиться в списках установленного софта и с точки зрения пакетного менеджера его в системе нет. Зато вы сможете обновлять Prometheus отдельно от пакетов. При ручной установке придётся немного побывать в роли установочного скрипта (который есть в пакете), поэтому, если у вас серьёзные намерения — автоматизируйте установку/обновление через какой-нибудь Ansible. Рекомендую взять за основу готовые роли для PrometheusAlertmanagerNode exporterGrafana.




Если ставить Prometheus в докере, то всё про мониторинг будет лежать в одном месте. Можно это хозяйство положить под Git и иметь возможность поднять мониторинг в две команды: git clonedocker-compose up. Но надо писать правильный docker-compose.yml, париться при возникновении сетевых проблем… Короче, вы от одних проблем избавляетесь, а взамен получаете другие. В зависимости от того, с какими вам больше нравится возиться, выбирайте тот или иной вариант установки. Вам понадобятся контейнеры prom/prometheusprom/node_exporterprom/alertmanager. За основу рекомендую взять docker-compose.yml из репозитория docprom.




В продакшене я бы поднимал мониторинг в докере как минимум в целях безопасности. Свой личный мониторинг я устанавливал по-старинке вручную.




Установка вручную




Расскажу про ручную установку, потому что в основе других способов установки лежат те же действия, только завёрнутые в дополнительную обёртку. Этот способ подойдёт для любых дистрибутивов Linux под управлением systemd (Ubuntu, Debian, Centos, Arch и т.д.)




Установка Prometheus server




Идём на https://github.com/prometheus/prometheus/releases, находим билд под свою платформу (скорее всего это будет linux-amd64). Копипастим ссылку, качаем:




$ wget https://github.com/.../prometheus-2.11.1.linux-amd64.tar.gz
$ tar xf prometheus-*.tar.gz




Раскидываем файлы по ФС, заводим пользователя:




# cd prometheus-*
# cp prometheus promtool /usr/local/bin
# mkdir /etc/prometheus /var/lib/prometheus
# cp prometheus.yml /etc/prometheus
# useradd --no-create-home --home-dir / --shell /bin/false prometheus
# chown -R prometheus:prometheus /var/lib/prometheus




В архиве будут два ненужных каталога: console_libraries/ и consoles/. Их не трогаем.




Создаём systemd-юнит:/etc/systemd/system/prometheus.service




[Unit]
Description=Prometheus
Wants=network-online.target
After=network-online.target

[Service]
User=prometheus
Group=prometheus
Restart=on-failure
ExecStart=/usr/local/bin/prometheus 
  --config.file /etc/prometheus/prometheus.yml 
  --storage.tsdb.path /var/lib/prometheus/
ExecReload=/bin/kill -HUP $MAINPID
ProtectHome=true
ProtectSystem=full

[Install]
WantedBy=default.target




Запускаем Prometheus server:




# systemctl daemon-reload
# systemctl start prometheus
# systemctl status prometheus




В статусе должно быть написано “active (running)” — значит работает. Теперь можно сходить на http://localhost:9090 и полюбоваться на интерфейс Prometheus’а. Пока что он бесполезен, но уже можно потыкать.







Установка node exporter




Node exporter надо раскатать на всех машинах, которые вы хотите мониторить. Устанавливается он аналогично серверу. Берём последний билд с https://github.com/prometheus/node_exporter/releases.




$ wget https://github.com/.../node_exporter-0.18.1.linux-amd64.tar.gz
$ tar xf node_exporter-*.tar.gz
# cd node_exporter-*
# cp node_exporter /usr/local/bin
# useradd --no-create-home --home-dir / --shell /bin/false node_exporter




/etc/systemd/system/node_exporter.service




[Unit]
Description=Prometheus Node Exporter
After=network.target

[Service]
Type=simple
User=node_exporter
Group=node_exporter
ExecStart=/usr/local/bin/node_exporter

SyslogIdentifier=node_exporter
Restart=always

PrivateTmp=yes
ProtectHome=yes
NoNewPrivileges=yes

ProtectSystem=strict
ProtectControlGroups=true
ProtectKernelModules=true
ProtectKernelTunables=yes

[Install]
WantedBy=multi-user.target




Важно! Если у вас /home вынесен на отдельный раздел, директиву ProtectHome=yes надо убрать, иначе node exporter будет неправильно показывать оставшееся место на разделе /home.




Запускаем node exporter:




# systemctl daemon-reload
# systemctl start node_exporter
# systemctl status node_exporter




Можно посмотреть как node exporter отдаёт метрики:




$ curl -s http://localhost:9100/metrics
# HELP go_gc_duration_seconds A summary of the GC invocation durations.
# TYPE go_gc_duration_seconds summary
go_gc_duration_seconds{quantile="0"} 7.9825e-05
go_gc_duration_seconds{quantile="0.25"} 7.9825e-05
go_gc_duration_seconds{quantile="0.5"} 7.9825e-05
go_gc_duration_seconds{quantile="0.75"} 7.9825e-05
go_gc_duration_seconds{quantile="1"} 7.9825e-05
go_gc_duration_seconds_sum 7.9825e-05
go_gc_duration_seconds_count 1
...




Пока не пытайтесь что-то понять в выводе. Отдаёт и ладно.




Установка alertmanager




Alertmanager — это про алерты. Первое время алертов у вас не будет, поэтому сейчас его можно не ставить. Но лучше всё-таки поставить, чтобы всё необходимое уже было подготовлено. Идём за дистрибутивом на https://github.com/prometheus/alertmanager/releases.




$ wget https://github.com/.../alertmanager-0.18.0.linux-amd64.tar.gz
$ tar xf alertmanager-*.tar.gz
# cd alertmanager-*
# cp alertmanager /usr/local/bin
# mkdir /etc/alertmanager /var/lib/alertmanager
# cp alertmanager.yml /etc/alertmanager
# useradd --no-create-home --home-dir / --shell /bin/false alertmanager
# chown -R alertmanager:alertmanager /var/lib/alertmanager




/etc/systemd/system/alertmanager.service




[Unit]
Description=Alertmanager for prometheus
After=network.target

[Service]
User=alertmanager
ExecStart=/usr/local/bin/alertmanager 
  --config.file=/etc/alertmanager/alertmanager.yml 
  --storage.path=/var/lib/alertmanager/
ExecReload=/bin/kill -HUP $MAINPID

NoNewPrivileges=true
ProtectHome=true
ProtectSystem=full

[Install]
WantedBy=multi-user.target




Запускаем alertmanager:




# systemctl daemon-reload
# systemctl start alertmanager
# systemctl status alertmanager




Веб-интерфейс alertmanager’а доступен на http://localhost:9093. Пока в нём нет ничего интересного.




Установка Grafana




Если у вас Debian/Ubuntu или Redhat/Centos, лучше установить Grafana из пакета. Ссылочки найдёте в описании под видео на https://grafana.com/grafana/download.




$ wget https://dl.grafana.com/oss/release/grafana_6.3.2_amd64.deb
# dpkg -i grafana_6.3.2_amd64.deb




Запускаем grafana:




# systemctl start grafana
# systemctl status grafana




Prometheus, Node exporter, Alertmanager и Grafana по умолчанию слушают на всех сетевых интерфейсах. При необходимости прикрывайтесь фаерволлом от посторонних глаз.




Первичная настройка




Теперь, когда все компоненты установлены, надо подружить их друг с другом. Сперва минимально настроим Prometheus server:/etc/prometheus/prometheus.yml




global:
  scrape_interval:     15s
  evaluation_interval: 15s

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets:
       - localhost:9093

scrape_configs:
  - job_name: 'node'
    static_configs:
    - targets:
       - localhost:9100
     # - anotherhost:9100




Пока не буду вдаваться в подробности настройки, этим займёмся в следующих статьях. На текущем этапе надо получить пусть примитивный, но работающий мониторинг. Основное что сейчас стоит знать:




  • Отступы в yml — два пробела. Всегда и везде.
  • scrape_interval — с какой периодичностью Prometheus server будет забирать (scrape) метрики с экспортеров.
  • localhost:9093 и localhost:9100 — адреса alertmanager’а и node exporter’а соответственно. Если у вас другие, замените на правильные. Если у вас node exporter установлен на несколько машин, впишите их все.




Теперь попросим prometheus перечитать конфигурационный файл:




# systemctl reload prometheus




В веб-интерфейсе на странице http://localhost:9090/targets появился первый таргет. Он должен быть в состоянии “UP”.







Поздравляю, мониторинг начал мониторить! Теперь можно пойти на вкладку Graph и запросить какую-нибудь метрику, например node_load1 — это одноминутный load average. Там же можно временной график посмотреть:







В повседневной жизни вы вряд ли будете смотреть графики в этом интерфейсе. Гораздо приятнее смотреть графики в Grafana.




Открываем интерфейс Grafana по адресу http://localhost:3000. Логинимся (admin:admin), при желании меняем пароль. Практически всё в Графане настраивается тут же, через веб-интерфейс. Нажимаем на боковой панели Configuration (шестерёнка) → Preferences:







Идём на вкладку Data Sources, добавляем наш Prometheus:







Теперь добавим готовый дашборд Node exporter full. Это лучший дашборд для старта из всех, что я пересмотрел. Идём Dashboards (квадрат) → Manage → Import.







Вписываем 1860 и убираем курсор из поля ввода, иначе не начнёт импортировать. Дальше указываем data source и жмём import.







Поздравляю, самая скучная часть работы проделана! Теперь вы можете наблюдать за жизнью своих серверов в Графане.




Если у вас серьёзные намерения и вы хотите, чтобы все компоненты автоматически запускались после перезагрузки машины, не забудьте сообщить об этом systemd:




# systemctl enable prometheus
# systemctl enable grafana
# systemctl enable alertmanager
# systemctl enable node_exporter




И это всё?




У нас пока нет алертов, не заведены пользователи в Grafana, мы ничего не понимаем в настройке. Да, наш мониторинг пока очень сырой. Но надо же с чего-то начать! Позже я напишу про настройку, про алерты и многое другое. Всё будет, друзья. Всё будет.




Куда копать дальше?




  • Официальная документация Prometheus. Да, она не супер-подробная, и лично мне многое было непонятно вначале, но заглянуть стоит.
  • Блог Robust Perseption, который ведёт Brian Brazil — один из разработчиков Prometheus’а. Статьи короткие и, на мой взгляд, слишком лаконичные. Хочется больше подробностей, больше примеров.
  • Книга Prometheus up and running за авторством всё того же Brian Brazil. Во многом повторяет статьи блога.




Источник: https://laurvas.ru/prometheus-p1/



2021-08-16T10:23:10
Software

Установка и настройка Grafana

В этой статье мы расскажем об установке и настройке Grafana, как пользоваться этим инструментом, вы узнаете как подключить внешние источники данных и многое другое.




Grafana — инструмент с открытым исходным кодом для визуализации данных из различных систем сбора статистики. Используется для представления в графическом виде временных рядов и текстовых данных.




Grafana поддерживает установку на самые популярные операционные системы: Linux (Debian, Ubuntu, CentOS, Fedora, OpenSuse, RedHat), Mac и Windows. Допустимыми базами данных, в которых возможно хранение данных о пользователях и дашбордах, являются SQLite (используется по умолчанию), MySQL и PostgreSQL. В качестве демонстрационных серверов будем использовать «Облачные серверы» с операционными системами CentOS Stream и Ubuntu, на которые установим Grafana с базой данных SQLite.




Перед началом установки Grafana, подготовим серверы. В консоли управления Selectel перейдём в раздел Облачная платформа и нажмём кнопку Создать сервер.







На следующем представлении выберем готовую конфигурацию сервера с 1 vCPU и 1 ГБ RAM с операционной системой CentOS 8 64-bit.







Наш сервер будет иметь 10 ГБ на жестком диске. Для целей демонстрации этого достаточно. Прокручиваем вниз и нажимаем кнопку Создать. Аналогичным образом создадим сервер с Ubuntu 20.04 LTS 64-bit.







После проделанных манипуляций оба сервера появятся в списке доступных. Приступим к установке Grafana.







Установка Grafana на CentOS Stream




Установка Grafana на CentOS Stream выполняется из репозитория разработчиков. Скачать дистрибутив можно также с официального сайта. Создадим новую конфигурацию репозитория:




sudo nano /etc/yum.repos.d/grafana.repo




Впишем в этот файл следующие переменные со значениями:




[grafana]

name=grafana

baseurl=https://packages.grafana.com/oss/rpm

repo_gpgcheck=1

enabled=1

gpgcheck=1

gpgkey=https://packages.grafana.com/gpg.key

sslverify=1

sslcacert=/etc/pki/tls/certs/ca-bundle.crt




Далее установим Grafana:




sudo yum install grafana -y




После установки включаем автозагрузку и запускаем демон Grafana:




sudo systemctl enable grafana-server




sudo systemctl start grafana-server




Установка завершена. Grafana на Ubuntu 20.04 готова к использованию. Проверим текущий статус сервиса:




sudo systemctl status grafana-server




В результате получим вывод:




grafana-server.service - Grafana instance

   Loaded: loaded (/usr/lib/systemd/system/grafana-server.service; enabled; vendor preset: enabled)

   Active: active (running) since Mon 2021-01-25 09:48:04 MSK; 5s ago




Установка Grafana на Ubuntu 20.04




На Ubuntu Grafana устанавливается из репозитория производителя. Скачаем GPG-ключ и добавим его в список надежных:




wget -q -O - https://packages.grafana.com/gpg.key | sudo apt-key add -




После этого добавим в систему репозиторий Grafana:




sudo add-apt-repository "deb https://packages.grafana.com/oss/deb stable main"




Далее обновляем кэш APT и установим Grafana:




sudo apt update

sudo apt install grafana




После установки включаем автозагрузку и запускаем демон Grafana:








sudo systemctl enable grafana-server

sudo systemctl start grafana-server




Установка завершена. Grafana на Ubuntu 20.04 готова к использованию. Проверим текущий статус сервиса:




sudo systemctl status grafana-server




В результате получим вывод:




grafana-server.service - Grafana instance

   Loaded: loaded (/usr/lib/systemd/system/grafana-server.service; enabled; vendor preset: enabled)

   Active: active (running) since Mon 2021-01-25 09:44:26 MSK; 10s ago




Настройка брандмауэра для доступа к Grafana




По умолчанию Grafana доступна на порту 3000. При использовании firewalld или iptables, необходимо разрешить сетевой доступ к этому порту из внешнего мира.




Набор команд для firewalld (добавление нового правила и перезагрузка сервиса firewalld для применения конфигурации):




firewall-cmd --zone=public --add-port=3000/tcp --permanent

systemctl reload firewalld




Набор команд для iptables:




nano /etc/sysconfig/iptables




Вписываем в раздел OUTPUT ACCEPT следующую строку:




-A INPUT -p tcp -m tcp --dport 3000 -m state --state NEW -j ACCEPT




И перезапускаем iptables:




sudo systemctl restart iptables




После выполнения описанных в этом разделе манипуляций, сетевой экран будет разрешать подключения по порту 3000. В этом можно убедиться, открыв в браузере интерфейс Grafana. Логин и пароль по умолчанию admin.







Если не удается войти в Grafana или вы поменяли пароль и не можете его вспомнить, через CLI административный пароль Web-интерфейса можно сбросить:




grafana-cli admin reset-admin-password --homepath "/usr/share/grafana" новый_пароль




После выполнения команды выше, можно входить с новым паролем.




Источники данных Grafana и установка плагинов




Grafana поддерживает из коробки различные источники данных:




  • Prometheus,
  • Graphite,
  • OpenTSDB,
  • InfluxDB,
  • Elasticsearch и другие.




Полный список можно посмотреть в документации. Перечень встроенных источников данных может быть расширен при помощи сторонних плагинов. Один из таких плагинов — плагин Zabbix для Grafana. Мониторинг — одно из основных назначений использования Grafana.







Установим этот плагин и добавим его в Grafana.




grafana-cli plugins install alexanderzobnin-zabbix-app




Теперь перезагрузим сервис Grafana:




systemctl restart grafana-server




В интерфейсе Grafana перейдём в Configuration -> Plugins и обнаружим здесь плагин для Zabbix.







Перейдем к настройке плагина и нажмём на кнопку Enable.







С момента включения плагина, в меню Data Sources появится новый источник данных — Zabbix. Нажмём на кнопку Select и настроим источник данных.







В настройках плагина укажем URL-адрес, имя пользователя и пароль для доступа по API к Zabbix.







Нажимаем на кнопку Save & Test и получаем подтверждение корректности настроек.







С этого момента данных из Zabbix могут быть использованы для создания визуализаций.




Создание и настройка панелей и дашбордов




Панели и дашборды — основные сущности представлений внутри Grafana. Каждый дашборд состоит из набора панелей. Для создания дашбордов перейдём в представление Dashboards и нажмём на кнопку New Dashboard.







На следующем шаге будет предложено добавить на дашборд новую панель.







Grafana имеет встроенные панели, которые можно сразу начинать использовать. По умолчанию представлены следующие типы:




  • Graph — панель с графиками с возможностью комбинировать несколько метрик на одной панели.
  • Stat (ранее SingleStat) — панель с одиночным графиком и возможностью отображения моментального значения метрики.
  • Gauge — панель в формате спидометра, есть возможность ограничить верхнее значение на шкале.
  • Bar Gauge — панель с возможностью отображения нескольких метрик на вертикальной гистограмме.
  • Table — панель с представлением в виде таблицы, на которой можно отображать значения нескольких метрик.
  • Text — панель для отображения произвольного текста (подписи).
  • Heatmap — панель для отображения тепловой карты значений метрик.
  • Alert list — панель для отображения событий из внешних систем.
  • Dashboard list — комбинированная панель для отображения дашбордов, добавленных в избранное.
  • News — панель для отображения новостной ленты из внешних источников.
  • Zabbix problems — панель для отображения событий из системы мониторинга Zabbix.
  • Logs — панель для отображения строчек лога, которые собираются одной из внешних систем.







Далее выберем в выпадающем меню источник данных Zabbix и укажем группу, хост, приложение и элемент данных. Если всё выполнено правильно — на графике появятся данные.







Grafana поддерживает различные типы визуализаций:




  • графические,
  • табличные,
  • гистограммы,
  • тепловые карты,
  • карты сетевого взаимодействия в Grafana и другие.




При создании новой панели, в правой части экрана в разделе Visualization есть возможность выбрать тип визуализации. Перейдем к созданию SingleStat (отображается как Stat) — панели с комбинацией численного и графического представлений. После ввода специфических данных для Zabbix, нажмём кнопку Apply.







В результате выполненных действий, увидим на дашборде две панели.







У каждой панели и каждого дашборда в Grafana есть свой набор настроек. Настройки первой открываются через выпадающее меню панели, а настройки второго откроются после нажатия на шестеренку в верхнем правом углу экрана.







На изображении ниже показаны настройки дашборда.







Импорт и экспорт дашбордов




В Grafana можно импортировать и экспортировать дашборды. Для импорта нужно перейти в представление Dashboards и нажать кнопку Import.







Для импорта доступны две опции: загрузка произвольного JSON и импорт готовых дашбордов с grafana.com. Во втором случае нужно указывать ID дашборда.







Для экспорта любого дашборда, необходимо нажать на специальную иконку в верхней части экрана и далее нажать Save to file. Дашборд будет сохранен в формате JSON.







Обратный прокси-сервер и SSL




Для настройки SSL в Grafana необходимо использовать обратный прокси-сервер. В этом разделе мы расскажем как настроить такой прокси на базе Nginx. Для целей демонстрации мы зарегистрировали домен grafana.tk, для которого выпустили специальный сертификат Let’s Encrypt.







После создания сервера мы настроили веб-сервер Nginx для работы через SSL. Осталось перенаправить трафик с него на порт 3000, по которому доступна Grafana. Для этого откроем конфигурационный файл веб-сервера.




sudo nano /etc/nginx/sites-available/grafana.tk




В этом файле будем работать с этим блоком конфигурации:




...

        location / {

                try_files $uri $uri/ =404;

        }

...




Заменим его на следующий:




...

    location / {

        proxy_pass http://127.0.0.1:3000;

    }

...




Таким образом мы настроили переадресацию на локальный порт 3000. Теперь можно проверить корректность конфигурации Nginx:




sudo nginx -t




Осталось перезапустить Nginx:




sudo systemctl reload nginx




Теперь наша тестовая Grafana доступна по URL https://grafana.tk. Проверим:







Кроме настроек SSL, в Grafana, для повышения уровня безопасности, можно отключить анонимный доступ и создание новых учетных записей.




Конфигурационный файл Grafana




Для тонкой настройки Grafana, можно использовать конфигурационный файл (по умолчанию /etc/grafana/grafana.ini). Здесь хранятся параметры, которые можно менять при необходимости. Рассмотрим основные блоки этого файла.




[paths]




data




Директория, в которой Grafana хранит базу данных sqlite3 и другие данные. Эта директория обычно задаётся в стартовом скрипте init.d.




logs




Директория, в которой Grafana хранит логи. Эта директория обычно задаётся в стартовом скрипте init.d.




[server]




http_addr




IP-адрес, на котором будет доступен веб-интерфейс Grafana. Если параметр не указан, то интерфейс будет доступен по всем сетевым интерфейсам сервера.




http_port




Порт, на котором будет доступен веб-интерфейс Grafana. По умолчанию номер порта 3000. Если нужно использовать порт 80, можно настроить переадресацию в iptables:




sudo iptables -t nat -A PREROUTING -p tcp --dport 80 -j REDIRECT --to-port 3000




Для переадресации можно также использовать веб-сервер Nginx или Apache.




protocol




Протокол, по которому будет доступна Grafana. Варианты http или https.




domain




Может использоваться только вместе с опцией root_url (см. ниже). Важно, если вы используете аутентификацию через GitHub или Google OAuth.




enforce_domain




Переадресация на корректный домен, если заголовок хоста не соответствует домену. По умолчанию в значении false.




root_url




Полный URL-адрес для доступа к Grafana через веб-браузер. Важно, если вы используете аутентификацию через GitHub или Google OAuth.




static_root_path




Путь к директории, в которой находятся файлы HTML, JS и CSS.




cert_file




Директория с файлом сертификата (если доступ к Grafana — https).




cert_key




Директория с файлом ключа (если доступ к Grafana осуществляется по протоколу https).




[database]




Grafana нужна база данных для хранения пользователей, дашбордов и других данных. По умолчанию используется sqlite3, которая включена в дистрибутив Grafana.




type




Поддерживаются mysql, postgres или sqlite3 на выбор.




path




Параметр применим только к базе данных sqlite3. Путь к файлу данных.




host




Параметр применим только к MySQL или Postgres. Включает IP-адрес или hostname и номер порта. Например, для MySQL запущенной на одном сервере с Grafana: host = 127.0.0.1:3306




name




Имя базы данных Grafana.




user




Имя пользователя базы данных (не применимо к sqlite3).




password




Пароль пользователя базы данных (не применимо к sqlite3).




ssl_mode




Применимо только к postgres. Доступны опции: disable, require или verify-full.




[security]




admin_user




Имя привилегированного пользователя Grafana. По умолчанию admin.




admin_password




Пароль привилегированного пользователя Grafana. По умолчанию admin.




login_remember_days




Количество дней, в течении которых не требуется повторный ввод логина и пароля.




disable_gravatar




Отключение пользовательской иконки. Устанавливается в true для отключения. По умолчанию имеет значение false.




[users]




allow_sign_up




Устанавливается в false для предотвращения создания новых учетных записей действующими пользователями.




allow_org_create




Устанавливается в false для предотвращения создания новых организаций действующими пользователями. По умолчанию имеет значение true.




auto_assign_org




Устанавливается в true для автоматического добавления новых пользователей в основную организацию (id 1). Когда установлено в false, новые пользователи добавляются в новые организации, которые создаются автоматически.




auto_assign_org_role




Роль новых пользователей будет привязана к основной организации.




[auth.anonymous]




enabled




Устанавливается в true для включения анонимного доступа. По умолчанию находится в значении false




org_name




Устанавливает имя организации, которое будет использоваться для анонимных пользователей.




org_role




Указывает роль для анонимных пользователей. По умолчанию Viewer, а другие доступные Editor и Admin.




[auth.basic]




enabled




Когда установлено значение true (по умолчанию) http api будет принимать соединения с флагом basic authentication.




[auth.ldap]




enabled




Устанавливается в true для включения интеграции с LDAP (по умолчанию: false).




config_file




Путь к конфигурационному файлу LDAP (по умолчанию: /etc/grafana/ldap.toml).




[auth.proxy]




Эта функция разрешает аутентифицироваться в обратном прокси.




enabled




По умолчанию установлено в false.




header_name




По умолчанию установлено в X-WEBAUTH-USER.




header_property




По умолчанию имя пользователя, но также может принимать значение адреса электронной почты.




auto_sign_up




Устанавливается в значение true для включения автоматического входа пользователей, которые отсутствуют в Grafana DB. По умолчанию установлено значение true.




[session]




provider




Валидные значения: memory, file, mysql, postgres. По умолчанию установлено значение file.




provider_config




Эта опция должна быть сконфигурирована отдельно в зависимости от того, какой тип провайдера сессии установлен.




  • file: путь к файлу с сессиями, например, data/sessions.
  • mysql: go-sql-driver/mysql dsn config string, например, user:password@tcp(127.0.0.1:3306)/database_name
  • postgres: ex: user=a password=b host=localhost port=5432 dbname=c sslmode=disable




cookie_name




Имя сессионного cookie в Grafana.




cookie_secure




Устанавливается в true если Grafana находится только за HTTPS-прокси. По умолчанию установлено в значение false.




session_life_time




Как долго длится сессия в секундах. По умолчанию 86400 секунд (24 часа).




[analytics]




reporting_enabled




Когда опция включена, Grafana будет отправлять анонимную статистику на stats.grafana.org. Никакие IP-адреса не записываются. Данные отправляются каждые 24 часа. По умолчанию установлено в true.




google_analytics_ua_id




Если вы хотите отслеживать активности в Grafana при помощи Google analytics, укажите ваш Universal Analytics ID. По умолчанию эта функция отключена.




[dashboards.json]




Если у вас есть система, которая автоматически строит дашборды из JSON-файлов, вы можете включить эту опцию, чтобы новые дашборды были доступны через поиск в Grafana.




enabled




Значение true или false. По умолчанию выключено.




path




Полный путь к директории, содержащей JSON-файлы с дашбордами.




Заключение




Мы рассмотрели подходы к установке, настройке и работе с Grafana. Этот популярный инструмент имеет большое сообщество разработчиков, которые поддерживают проект и разрабатывают новые плагины, дашборды и развивают продукт. У Grafana регулярно выходят обновления и улучшения, поэтому можно без опасений использовать этот инструмент в продакшн средах.




Источник: https://selectel.ru/blog/install-and-setup-grafana/



2021-08-15T21:15:55
Software

Собираем логи с Loki

Мы в Badoo постоянно мониторим свежие технологии и оцениваем, стоит ли использовать их в нашей системе. Одним из таких исследований и хотим поделиться с сообществом. Оно посвящено Loki — системе агрегирования логов.




Loki — это решение для хранения и просмотра логов, также этот стек предоставляет гибкую систему для их анализа и отправки данных в Prometheus. В мае вышло очередное обновление, которое активно продвигают создатели. Нас заинтересовало, что умеет Loki, какие возможности предоставляет и в какой степени может выступать в качестве альтернативы ELK — стека, который мы используем сейчас.




Что такое Loki




Grafana Loki — это набор компонентов для полноценной системы работы с логами. В отличие от других подобных систем Loki основан на идее индексировать только метаданные логов — labels (так же, как и в Prometheus), a сами логи сжимать рядом в отдельные чанки.




Домашняя страницаGitHub




Прежде чем перейти к описанию того, что можно делать при помощи Loki, хочу пояснить, что подразумевается под «идеей индексировать только метаданные». Сравним подход Loki и подход к индексированию в традиционных решениях, таких как Elasticsearch, на примере строки из лога nginx:




172.19.0.4 - - [01/Jun/2020:12:05:03 +0000] "GET /purchase?user_id=75146478&item_id=34234 HTTP/1.1" 500 8102 "-" "Stub_Bot/3.0" "0.001"




Традиционные системы парсят строку целиком, включая поля с большим количеством уникальных значений user_id и item_id, и сохраняют всё в большие индексы. Преимуществом данного подхода является то, что можно выполнять сложные запросы быстро, так как почти все данные — в индексе. Но за это приходится платить тем, что индекс становится большим, что выливается в требования к памяти. В итоге полнотекстовый индекс логов сопоставим по размеру с самими логами. Для того чтобы по нему быстро искать, индекс должен быть загружен в память. И чем больше логов, тем быстрее индекс увеличивается и тем больше памяти он потребляет.




Подход Loki требует, чтобы из строки были извлечены только необходимые данные, количество значений которых невелико. Таким образом, мы получаем небольшой индекс и можем искать данные, фильтруя их по времени и по проиндексированным полям, а затем сканируя оставшееся регулярными выражениями или поиском подстроки. Процесс кажется не самым быстрым, но Loki разделяет запрос на несколько частей и выполняет их параллельно, обрабатывая большое количество данных за короткое время. Количество шардов и параллельных запросов в них конфигурируется; таким образом, количество данных, которое можно обработать за единицу времени, линейно зависит от количества предоставленных ресурсов.




Этот компромисс между большим быстрым индексом и маленьким индексом с параллельным полным перебором позволяет Loki контролировать стоимость системы. Её можно гибко настраивать и расширять в соответствии с потребностями.




Loki-стек состоит из трёх компонентов: Promtail, Loki, Grafana. Promtail собирает логи, обрабатывает их и отправляет в Loki. Loki их хранит. А Grafana умеет запрашивать данные из Loki и показывать их. Вообще Loki можно использовать не только для хранения логов и поиска по ним. Весь стек даёт большие возможности по обработке и анализу поступающих данных, используя Prometheus way.
Описание процесса установки можно найти здесь.




Поиск по логам




Искать по логам можно в специальном интерфейсе Grafana — Explorer. Для запросов используется язык LogQL, очень похожий на PromQL, использующийся в Prometheus. В принципе, его можно рассматривать как распределённый grep.




Интерфейс поиска выглядит так:







Сам запрос состоит из двух частей: selector и filter. Selector — это поиск по индексированным метаданным (лейблам), которые присвоены логам, а filter — поисковая строка или регэксп, с помощью которого отфильтровываются записи, определённые селектором. В приведенном примере: В фигурных скобках — селектор, все что после — фильтр.




{image_name="nginx.promtail.test"} |= "index"




Из-за принципа работы Loki нельзя делать запросы без селектора, но лейблы можно делать сколь угодно общими.




Селектор — это key-value значения в фигурных скобках. Можно комбинировать селекторы и задавать разные условия поиска, используя операторы =, != или регулярные выражения:




{instance=~"kafka-[23]",name!="kafka-dev"} 
// Найдёт логи с лейблом instance, имеющие значение kafka-2, kafka-3, и исключит dev 




Фильтр — это текст или регэксп, который отфильтрует все данные, полученные селектором.




Есть возможность получения ad-hoc-графиков по полученным данным в режиме metrics. Например, можно узнать частоту появления в логах nginx записи, содержащей строку index:







Полное описание возможностей можно найти в документации LogQL.




Парсинг логов




Есть несколько способов собрать логи:




  • С помощью Promtail, стандартного компонента стека для сбора логов.
  • Напрямую с докер-контейнера при помощи Loki Docker Logging Driver.
  • Использовать Fluentd или Fluent Bit, которые умеют отправлять данные в Loki. В отличие от Promtail они имеют готовые парсеры практически для любого вида лога и справляются в том числе с multiline-логами.




Обычно для парсинга используют Promtail. Он делает три вещи:




  • Находит источники данных.
  • Прикрепляет к ним лейблы.
  • Отправляет данные в Loki.




В настоящий момент Promtail может читать логи с локальных файлов и с systemd journal. Он должен быть установлен на каждую машину, с которой собираются логи.




Есть интеграция с Kubernetes: Promtail автоматически через Kubernetes REST API узнаёт состояние кластера и собирает логи с ноды, сервиса или пода, сразу развешивая лейблы на основе метаданных из Kubernetes (имя пода, имя файла и т. д.).




Также можно развешивать лейблы на основе данных из лога при помощи Pipeline. Pipeline Promtail может состоять из четырёх типов стадий. Более подробно — в официальной документации, тут же отмечу некоторые нюансы.




  1. Parsing stages. Это стадия RegEx и JSON. На этом этапе мы извлекаем данные из логов в так называемую extracted map. Извлекать можно из JSON, просто копируя нужные нам поля в extracted map, или через регулярные выражения (RegEx), где в extracted map “мапятся” named groups. Extracted map представляет собой key-value хранилище, где key — имя поля, а value — его значение из логов.
  2. Transform stages. У этой стадии есть две опции: transform, где мы задаем правила трансформации, и source — источник данных для трансформации из extracted map. Если в extracted map такого поля нет, то оно будет создано. Таким образом, можно создавать лейблы, которые не основаны на extracted map. На этом этапе мы можем манипулировать данными в extracted map, используя достаточно мощный Golang Template. Кроме того, надо помнить, что extracted map целиком загружается при парсинге, что даёт возможность, например, проверять значение в ней: “{{if .tag}tag value exists{end}}”. Template поддерживает условия, циклы и некоторые строковые функции, такие как Replace и Trim.
  3. Action stages. На этом этапе можно сделать что-нибудь с извлечённым:
    • Создать лейбл из extracted data, который проиндексируется Loki.
    • Изменить или установить время события из лога.
    • Изменить данные (текст лога), которые уйдут в Loki.
    • Создать метрики.
  4. Filtering stages. Стадия match, на которой можно либо отправить в /dev/null записи, которые нам не нужны, либо направить их на дальнейшую обработку.




Покажу на примере обработки обычных nginx-логов, как можно парсить логи при помощи Promtail.




Для теста возьмём в качестве nginx-proxy модифицированный образ nginx jwilder/nginx-proxy:alpine и небольшой демон, который умеет спрашивать сам себя по HTTP. У демона задано несколько эндпоинтов, на которые он может давать ответы разного размера, с разными HTTP-статусами и с разной задержкой.




Собирать логи будем с докер-контейнеров, которые можно найти по пути /var/lib/docker/containers/<container_id>/<container_id>-json.log




В docker-compose.yml настраиваем Promtail и указываем путь до конфига:




promtail:
  image: grafana/promtail:1.4.1
 // ...
 volumes:
   - /var/lib/docker/containers:/var/lib/docker/containers:ro
   - promtail-data:/var/lib/promtail/positions
   - ${PWD}/promtail/docker.yml:/etc/promtail/promtail.yml
 command:
   - '-config.file=/etc/promtail/promtail.yml'
 // ...




Добавляем в promtail.yml путь до логов (в конфиге есть опция «docker», которая делает то же самое одной строчкой, но это было бы не так наглядно):




scrape_configs:
 - job_name: containers

   static_configs:
       labels:
         job: containerlogs
         __path__: /var/lib/docker/containers/*/*log  # for linux only




При включении такой конфигурации в Loki будут попадать логи со всех контейнеров. Чтобы этого избежать, меняем настройки тестового nginx в docker-compose.yml — добавляем логирование поле tag:




proxy:
 image: nginx.test.v3
//…
 logging:
   driver: "json-file"
   options:
     tag: "{{.ImageName}}|{{.Name}}"




Правим promtail.yml и настраиваем Pipeline. На вход попадают логи следующего вида:




{"log":"u001b[0;33;1mnginx.1    | u001b[0mnginx.test 172.28.0.3 - - [13/Jun/2020:23:25:50 +0000] "GET /api/index HTTP/1.1" 200 0 "-" "Stub_Bot/0.1" "0.096"n","stream":"stdout","attrs":{"tag":"nginx.promtail.test|proxy.prober"},"time":"2020-06-13T23:25:50.66740443Z"}
{"log":"u001b[0;33;1mnginx.1    | u001b[0mnginx.test 172.28.0.3 - - [13/Jun/2020:23:25:50 +0000] "GET /200 HTTP/1.1" 200 0 "-" "Stub_Bot/0.1" "0.000"n","stream":"stdout","attrs":{"tag":"nginx.promtail.test|proxy.prober"},"time":"2020-06-13T23:25:50.702925272Z"}




Pipeline stage:




 - json:
     expressions:
       stream: stream
       attrs: attrs
       tag: attrs.tag




Извлекаем из входящего JSON поля stream, attrs, attrs.tag (если они есть) и кладём их в extracted map.




 - regex:
     expression: ^(?P<image_name>([^|]+))|(?P<container_name>([^|]+))$
     source: "tag"




Если удалось положить поле tag в extracted map, то при помощи регэкспа извлекаем имена образа и контейнера.




 - labels:
     image_name:
     container_name:




Назначаем лейблы. Если в extracted data будут обнаружены ключи image_name и container_name, то их значения будут присвоены соотвестующим лейблам.




 - match:
     selector: '{job="docker",container_name="",image_name=""}'
     action: drop




Отбрасываем все логи, у которых не обнаружены установленные labels image_name и container_name.




  - match:
     selector: '{image_name="nginx.promtail.test"}'
     stages:
       - json:
           expressions:
             row: log




Для всех логов, у которых image_name равен nginx.promtail.test, извлекаем из исходного лога поле log и кладём его в extracted map с ключом row.




  - regex:
         # suppress forego colors
         expression: .+nginx.+|.+[0m(?P<virtual_host>[a-z_.-]+) +(?P<nginxlog>.+)
         source: logrow




Очищаем входную строку регулярными выражениями и вытаскиваем nginx virtual host и строку лога nginx.




     - regex:
         source: nginxlog
         expression: ^(?P<ip>[w.]+) - (?P<user>[^ ]*) [(?P<timestamp>[^ ]+).*] "(?P<method>[^ ]*) (?P<request_url>[^ ]*) (?P<request_http_protocol>[^ ]*)" (?P<status>[d]+) (?P<bytes_out>[d]+) "(?P<http_referer>[^"]*)" "(?P<user_agent>[^"]*)"( "(?P<response_time>[d.]+)")?




Парсим nginx-лог регулярными выражениями.




    - regex:
           source: request_url
           expression: ^.+.(?P<static_type>jpg|jpeg|gif|png|ico|css|zip|tgz|gz|rar|bz2|pdf|txt|tar|wav|bmp|rtf|js|flv|swf|html|htm)$
     - regex:
           source: request_url
           expression: ^/photo/(?P<photo>[^/?.]+).*$
       - regex:
           source: request_url
           expression: ^/api/(?P<api_request>[^/?.]+).*$




Разбираем request_url. С помощью регэкспа определяем назначение запроса: к статике, к фоткам, к API и устанавливаем в extracted map соответствующий ключ.




       - template:
           source: request_type
           template: "{{if .photo}}photo{{else if .static_type}}static{{else if .api_request}}api{{else}}other{{end}}"




При помощи условных операторов в Template проверяем установленные поля в extracted map и устанавливаем для поля request_type нужные значения: photo, static, API. Назначаем other, если не удалось. Теперь request_type содержит тип запроса.




       - labels:
           api_request:
           virtual_host:
           request_type:
           status:




Устанавливаем лейблы api_request, virtual_host, request_type и статус (HTTP status) на основании того, что удалось положить в extracted map.




       - output:
           source: nginx_log_row




Меняем output. Теперь в Loki уходит очищенный nginx-лог из extracted map.







После запуска приведённого конфига можно увидеть, что каждой записи присвоены метки на основе данных из лога.




Нужно иметь в виду, что извлечение меток с большим количеством значений (cardinality) может существенно замедлить работу Loki. То есть не стоит помещать в индекс, например, user_id. Подробнее об этом читайте в статье “How labels in Loki can make log queries faster and easier”. Но это не значит, что нельзя искать по user_id без индексов. Нужно использовать фильтры при поиске («грепать» по данным), а индекс здесь выступает как идентификатор потока.




Визуализация логов







Loki может выступать в роли источника данных для графиков Grafana, используя LogQL. Поддерживаются следующие функции:




  • rate — количество записей в секунду;
  • count over time — количество записей в заданном диапазоне.




Ещё присутствуют агрегирующие функции Sum, Avg и другие. Можно строить достаточно сложные графики, например график количества HTTP-ошибок:







Стандартный data source Loki несколько урезан по функциональности по сравнению с data source Prometheus (например, нельзя изменить легенду), но Loki можно подключить как источник с типом Prometheus. Я не уверен, что это документированное поведение, но, судя по ответу разработчиков “How to configure Loki as Prometheus datasource? · Issue #1222 · grafana/loki”, например, это вполне законно, и Loki полностью совместим с PromQL.




Добавляем Loki как data source с типом Prometheus и дописываем URL /loki:







И можно делать графики, как в том случае, если бы мы работали с метриками из Prometheus:







Я думаю, что расхождение в функциональности временное и разработчики в будущем это поправят.







Метрики




В Loki доступны возможность извлечения числовых метрик из логов и отправка их в Prometheus. Например, в логе nginx присутствует количество байтов на ответ, а также, при определённой модификации стандартного формата лога, и время в секундах, которое потребовалось на ответ. Эти данные можно извлечь и отправить в Prometheus.




Добавляем ещё одну секцию в promtail.yml:




- match:
   selector: '{request_type="api"}'
   stages:
     - metrics:
         http_nginx_response_time:
           type: Histogram
           description: "response time ms"
           source: response_time
           config:
             buckets: [0.010,0.050,0.100,0.200,0.500,1.0]
- match:
   selector: '{request_type=~"static|photo"}'
   stages:
     - metrics:
         http_nginx_response_bytes_sum:
           type: Counter
           description: "response bytes sum"
           source: bytes_out
           config:
             action: add
         http_nginx_response_bytes_count:
           type: Counter
           description: "response bytes count"
           source: bytes_out
           config:
             action: inc




Опция позволяет определять и обновлять метрики на основе данных из extracted map. Эти метрики не отправляются в Loki — они появляются в Promtail /metrics endpoint. Prometheus должен быть сконфигурирован таким образом, чтобы получить данные, полученные на этой стадии. В приведённом примере для request_type=“api” мы собираем метрику-гистограмму. С этим типом метрик удобно получать перцентили. Для статики и фото мы собираем сумму байтов и количество строк, в которых мы получили байты, чтобы вычислить среднее значение.




Более подробно о метриках читайте здесь.




Открываем порт на Promtail:




promtail:
     image: grafana/promtail:1.4.1
     container_name: monitoring.promtail
     expose:
       - 9080
     ports:
       - "9080:9080"




Убеждаемся, что метрики с префиксом promtail_custom появились:







Настраиваем Prometheus. Добавляем job promtail:




- job_name: 'promtail'
 scrape_interval: 10s
 static_configs:
   - targets: ['promtail:9080']




И рисуем график:







Таким образом можно узнать, например, четыре самых медленных запроса. Также на данные метрики можно настроить мониторинг.




Масштабирование




Loki может быть как в одиночном режиме (single binary mode), так и в шардируемом (horizontally-scalable mode). Во втором случае он может сохранять данные в облако, причём чанки и индекс хранятся отдельно. В версии 1.5 реализована возможность хранения в одном месте, но пока не рекомендуется использовать её в продакшене.







Чанки можно хранить в S3-совместимом хранилище, для хранения индексов — использовать горизонтально масштабируемые базы данных: Cassandra, BigTable или DynamoDB. Другие части Loki — Distributors (для записи) и Querier (для запросов) — stateless и также масштабируются горизонтально.




На конференции DevOpsDays Vancouver 2019 один из участников Callum Styan озвучил, что с Loki его проект имеет петабайты логов с индексом меньше 1% от общего размера: “How Loki Correlates Metrics and Logs — And Saves You Money”.




Сравнение Loki и ELK




Размер индекса




Для тестирования получаемого размера индекса я взял логи с контейнера nginx, для которого настраивался Pipeline, приведённый выше. Файл с логами содержал 406 624 строки суммарным объёмом 109 Мб. Генерировались логи в течение часа, примерно по 100 записей в секунду.




Пример двух строк из лога:







При индексации ELK это дало размер индекса 30,3 Мб:







В случае с Loki это дало примерно 128 Кб индекса и примерно 3,8 Мб данных в чанках. Стоит отметить, что лог был искусственно сгенерирован и не отличался большим разнообразием данных. Простой gzip на исходном докеровском JSON-логе с данными давал компрессию 95,4%, а с учётом того, что в сам Loki посылался только очищенный nginx-лог, то сжатие до 4 Мб объяснимо. Суммарное количество уникальных значений для лейблов Loki было 35, что объясняет небольшой размер индекса. Для ELK лог также очищался. Таким образом, Loki сжал исходные данные на 96%, а ELK — на 70%.




Потребление памяти







Если сравнивать весь стек Prometheus и ELK, то Loki «ест» в несколько раз меньше. Понятно, что сервис на Go потребляет меньше, чем сервис на Java, и сравнение размера JVM Heap Elasticsearch и выделенной памяти для Loki некорректно, но тем не менее стоит отметить, что Loki использует гораздо меньше памяти. Его преимущество по CPU не так очевидно, но также присутствует.




Скорость




Loki быстрее «пожирает» логи. Скорость зависит от многих факторов — что за логи, как изощрённо мы их парсим, сеть, диск и т. д. — но она однозначно выше, чем у ELK (в моём тесте — примерно в два раза). Объясняется это тем, что Loki кладёт гораздо меньше данных в индекс и, соответственно, меньше времени тратит на индексирование. Со скоростью поиска при этом ситуация обратная: Loki ощутимо притормаживает на данных размером более нескольких гигабайтов, у ELK же скорость поиска от размера данных не зависит.




Поиск по логам




Loki существенно уступает ELK по возможностям поиска по логам. Grep с регулярными выражениями — это сильная вещь, но он уступает взрослой базе данных. Отсутствие range-запросов, агрегация только по лейблам, невозможность искать без лейблов — всё это ограничивает нас в поисках интересующей информации в Loki. Это не подразумевает, что с помощью Loki ничего нельзя найти, но определяет флоу работы с логами, когда вы сначала находите проблему на графиках Prometheus, а потом по этим лейблам ищете, что случилось в логах.




Интерфейс




Во-первых, это красиво (извините, не мог удержаться). Grafana имеет приятный глазу интерфейс, но Kibana гораздо более функциональна.




Плюсы и минусы Loki




Из плюсов можно отметить, что Loki интегрируется с Prometheus, соответственно, метрики и алертинг мы получаем из коробки. Он удобен для сбора логов и их хранения с Kubernetes Pods, так как имеет унаследованный от Prometheus service discovery и автоматически навешивает лейблы.




Из минусов — слабая документация. Некоторые вещи, например особенности и возможности Promtail, я обнаружил только в процессе изучения кода, благо open-source. Ещё один минус — слабые возможности парсинга. Например, Loki не умеет парсить multiline-логи. Также к недостаткам можно отнести то, что Loki — относительно молодая технология (релиз 1.0 был в ноябре 2019 года).




Заключение




Loki — на 100% интересная технология, которая подходит для небольших и средних проектов, позволяя решать множество задач агрегирования логов, поиска по логам, мониторинга и анализа логов.




Мы не используем Loki в Badoo, так как имеем ELK-стек, который нас устраивает и который за много лет оброс различными кастомными решениями. Для нас камнем преткновения является поиск по логам. Имея почти 100 Гб логов в день, нам важно уметь находить всё и чуть-чуть больше и делать это быстро. Для построения графиков и мониторинга мы используем другие решения, которые заточены под наши нужды и интегрированы между собой. У стека Loki есть ощутимые плюсы, но он не даст нам больше, чем у нас есть, и его преимущества точно не перекроют стоимость миграции.




И хотя после исследования стало понятно, что мы Loki использовать не можем, надеемся, что данный пост поможет вам в выборе.




Репозиторий с кодом, использованным в статье, находится тут.










Источник: https://github.com/black-rosary/loki-nginx



2021-08-15T20:59:14
Software

Prometheus: Визуализация произвольных метрик и значений в Grafana через Pushgateway.

1. Введение.




По умолчанию, метрики в Prometheus попадают методом pull — система обращается к агентам (exporter) и забирает данные. Это рекомендованный способ, но мы можем настроить получение метрик методом push с помощью Pushgateway.




Схема работы следующая: метрика отправляется скриптом на сервер с помощью Pushgateway, а Prometheus забирает данные уже с него.




Предполагается, что у нас уже установлен сервер Prometheus.




Ссылка на инструкцию по установке: «Prometheus: Установка и настройка Prometheus Server.»




Установку Pushgateway можно выполнить на тот же сервер, что и Prometheus, либо на выделенный. В этой инструкции установим на тот же и под управлением CentOS 7.




2. Установка Pushgateway.




Сервис может быть запущен в качестве контейнера Docker. Однако, в данном руководстве, будет вариант со скачиванием бинарного файла и созданием юнита для его автозапуска.




Переходим на официальную страницу загрузки Pushgateway.




Ссылка на официальную страницу: prometheus.io.







Копируем и используем ссылку для скачивания бинарного файла под CentOS 7:




# yum -y install wget tar mc




# wget https://github.com/prometheus/pushgateway/releases/download/v1.4.0/pushgateway-1.4.0.linux-amd64.tar.gz




Распаковываем архив:




# tar zxvf pushgateway-*.tar.gz




Копируем бинарный файл в каталог /usr/local/bin:




# cp /root/pushgateway-1.4.0.linux-amd64/pushgateway /usr/local/bin/




Создаем пользователя Pushgateway:




# useradd --no-create-home --shell /bin/false pushgateway




Задаем владельца для нашего бинарного файла:




# chown pushgateway:pushgateway /usr/local/bin/pushgateway




Для возможности запуска Pushgateway в качестве сервиса, создаем юнит-файл:




# mcedit /etc/systemd/system/pushgateway.service




И размещаем там строки:




[Unit]

Description=Pushgateway

Wants=network-online.target

After=network.target



[Service]

User=pushgateway

Group=pushgateway

Type=simple

ExecStart=/usr/local/bin/pushgateway 

--web.listen-address=:9091 

--web.telemetry-path=/metrics 

--persistence.file=/tmp/metric.store 

--persistence.interval=5m 

--log.level=info 

--web.enable-admin-api 

--log.format=json



ExecReload=/bin/kill -HUP $MAINPID

Restart=on-failure



[Install]

WantedBy=multi-user.target




В данном примете мы запустим Pushgateway на порту 9091 c режимом администратора --web.enable-admin-api.




Также мы указали уровень и формат логов — сами логи можно будет увидеть в /var/log/messages в CentOS 7.




Перечитываем конфигурацию systemd:




# systemctl daemon-reload




Разрешаем автозапуск сервиса и стартуем его:




# systemctl enable pushgateway




# systemctl start pushgateway




Проверяем состояние:




# systemctl status pushgateway




Если состояние сервиса не active, следуйте инструкциям на экране и повторите предыдущие действия, чтобы устранить проблему, прежде чем продолжить.




Откроем порт 9091.




  • Если firewalld:




# firewall-cmd --zone=public --add-port=9091/tcp --permanent

# systemctl reload firewalld




  • Если iptables:




Открываем файл конфигурации iptables текстовым редактором:




# mcedit /etc/sysconfig/iptables




В разделе ‘OUTPUT ACCEPT‘, добавляем строку:




-A INPUT -p tcp -m tcp --dport 9091 -m state --state NEW -j ACCEPT




Перезапускаем iptables:




# sudo systemctl restart iptables




Проверяем, что метрики отдаются:




# curl 'localhost:9091/metrics'




Открываем браузер и вводим адрес:




# http://<IP-адрес сервера pushgateway>:9091




Вы должны увидеть меню портала:







Pushgateway готов к работе.




Переходим к настройке Prometheus.




3. Настройка Prometheus.




Необходимо добавить задание в Prometheus для подключения к серверу Pushgateway и получения с него метрик. Это делается по такому же принципу, что и получение метрик с экспортеров.




Ссылка на официальную документацию: github.com/prometheus/pushgateway.




Открываем конфигурационный файл:




# mcedit /etc/prometheus/prometheus.yml




В секцию scrape_configs добавим задание:




…

scrape_configs:

…

  - job_name: 'pushgateway'

    honor_labels: true

    static_configs:

    - targets: ['localhost:9091']




Сохраним файл и выйдем из тестового редактора.




Проверим синтаксис:




# promtool check config /etc/prometheus/prometheus.yml




Ответ:







В данном задании мы говорим серверу Prometheus забирать метрики с сервера localhost (локальный сервер) на порту 9091.




Для применения настроек перезапускаем сервис Prometheus:




# systemctl restart prometheus




Проверяем, что сервис работает корректно:




# systemctl status prometheus




Можно попробовать отправить метрики в Pushgateway.




4. Отправка метрик методом push, put, delete в Pushgateway.




Отправку данных можно выполнить http-запросом из bash, например, с помощью пакета curl.




Синтаксис следующий:




# echo "<Название для метрики> <Значение метрики>" | curl --data-binary @- http://<IP-адрес сервера pushgateway>:9091/metrics/job/<Тег для job>/instance/<Тег для instance>




Например:




# echo "Temperature +15" | curl --data-binary @- http://localhost:9091/metrics/job/emachines_custom_metrics/instance/localhost




В данном примере мы передадим на локальный сервер Pushgateway (localhost:9091) метрику Temperature со значением +15.




Теперь мы можем перейти в браузере по адресу:




# http://<IP-адрес сервера pushgateway>:9091/metrics




И увидеть отправленную ранее метрику:







Если вам больше не нужны ваши самодельные метрики, то их можно и убрать.




Заходим на web-портал Pushgateway




# http://Ваш-IP:9091




И просто нажимаем Delete Group для деактивации сбора метрик:







или вот так:







# curl -X DELETE http://localhost:9091/metrics/job/emachines_custom_metrics/instance/localhost







# curl -X DELETE http://localhost:9091/metrics/job/emachines_custom_metrics







# curl -X PUT http://localhost:9091/api/v1/admin/wipe




5. Отправка метрик методом скрипта на Python.




В качестве примера, рассмотрим скрипт, написанный на Python.




Для начала, необходимо установить модуль prometheus_client:




# pip3 install prometheus_client




Сам скрипт будет выглядеть таким образом:




#!/usr/bin/env python3

# -*- encoding: utf-8 -*-



from prometheus_client import CollectorRegistry, Gauge, push_to_gateway



registry = CollectorRegistry()

g = Gauge('temperature_metrics', 'Description metric', registry=registry)

g.set(22)

push_to_gateway('localhost:9091', job='temperature_lobby', registry=registry)





В данном примере мы отправим в Prometheus через Pushgateway метрику temperature_metrics со значением 22 и job-тегом temperature_lobby.




6. Практическое применение Pushgateway.




Для операционной системы CentOS 7 есть отличная утилита hddtemp — инструмент для измерения температуры жестких дисков. Она проста в использовании и установке.




Ссылка на инструкцию: «CentOS 7: Мониторинг температуры жестких дисков. Утилита hddtemp.»




Так же с помощью Pushgateway можно организовать сбор метрик ssl-cert-check и сделать простой мониторинг SSL.




7. Оригиналы источников информации.




  1. prometheus.io «Download».
  2. dmosk.ru «Установка и настройка Pushgateway для Prometheus».
  3. github.com «pushgateway».




Источник: https://hamsterden.ru/prometheus-forwarding-of-arbitrary-metrics-and-values-via-pushgateway/



2021-08-15T20:43:53
Software

Grafana: Установка и настройка Grafana Server.

В предыдущей статье мы настраивали Prometheus Server. Пришло время настроить красивое графическое отображение с помощью Grafana Server.




1. Установка программы.




Белые классические графики — это классика, а хочется, чтоб всё было как на приборной панели современного самолёта! Чтоб приборчики всякие и экраны красивые.










За такую красоту отвечает графическая оболочка Grafana Server. Его сейчас и поставим.




Официальная ссылка на руководство по установке и настройке Grafana от разработчика Prometheusprometheus.io.




Всё можно поставить вручную или через репозиторий.




Установим файловый менеджер и текстовый редактор в одном лице — Midnight Commander:




# yum -y install mc




1.1. Установка через репозиторий.




Ссылка на установку репозитория от разработчика Grafanagrafana.com.




Создадим файл репозитория:




# mcedit /etc/yum.repos.d/grafana.repo




Внесём в него тест:




[grafana]

name=grafana

baseurl=https://packages.grafana.com/enterprise/rpm

repo_gpgcheck=1

enabled=1

gpgcheck=1

gpgkey=https://packages.grafana.com/gpg.key

sslverify=1

sslcacert=/etc/pki/tls/certs/ca-bundle.crt




Установим программное обеспечение:




# yum -y install grafana-enterprise




1.2. Установка вручную.




Если вы устанавливаете вручную с помощью YUM, то вам нужно будет вручную обновить Grafana для каждой новой версии.




Заходим на сайт разработчика Grafanagrafana.com.




В разделе установки этой графической оболочки ищем копируем ссылку на закачку пакета установщика с программой. В инструкции есть уже команда на закачку с правильной ссылкой. Используем ее.




Переместимся в папку пользователя под которым работаем:




# cd ~




Скачаем данный пакет установщика на сервер CentOS 7, в локальную папку пользователя:




# wget https://dl.grafana.com/oss/release/grafana-6.7.2-1.x86_64.rpm




Проверим, что он в папке:




# ls




Ответ: список содержимого папки + файл grafana-6.7.2-1.x86_64.rpm.




grafana-6.7.2-1.x86_64.rpm




Установим пакет из локальной папки, в которой мы находимся:




# sudo yum -y localinstall grafana-6.7.2-1.x86_64.rpm




В итоге получится вот это:







Дополнительную информацию смотрите в руководстве по установке Centos 7. Кому привычнее ставить из репозитория, то имеется официальный репозиторий пакетов YUM от разработчика Grafana. Ссылки на подробные ресурсы упоминались выше по тексту инструкции.




2. Запуск системной службы.




Чтобы запустить службу и убедиться, что она запущена:




# systemctl daemon-reload

# systemctl start grafana-server




Настройка Grafana Server для запуска при загрузке CentOS 7:




# systemctl enable grafana-server.service




Убедимся, что всё стартовало успешно:




# systemctl status grafana-server




Ответ:







3. Основные компоненты.




Основные компоненты, которые могут пригодиться:







Теперь можно переходить к настройке Grafana Server в web-интерфейсе.




4. Открытие 3000 порта.




Web-интерфейс расположен по адресу http://localhost:3000/. Если вам потребуется сменить 3000 порт на свой, то это можно будет сделать в файлах конфигурации позднее.




Откроем порт 3000:







# firewall-cmd --zone=public --add-port=3000/tcp --permanent

# firewall-cmd --complete-reload







Открываем файл конфигурации iptables текстовым редактором:




# mcedit /etc/sysconfig/iptables




В разделе ‘OUTPUT ACCEPT‘, добавляем строку:




-A INPUT -p tcp -m tcp --dport 3000 -m state --state NEW -j ACCEPT




Перезапускаем iptables:




# systemctl restart iptables




5. Отключение регистрации и анонимного доступа.




Grafana предоставляет параметры, позволяющие посетителям создавать собственные учетные записи и просматривать панели мониторинга без регистрации. Поскольку Grafana доступна в Интернете, это может повлечь риски для безопасности. Однако если Grafana недоступна в Интернете или не работает с конфиденциальными данными, вы можете не блокировать эти функции.




Создадим резервную копию файла конфигурации:




# cp /etc/grafana/grafana.ini /etc/grafana/grafana.ini.original




Откройте главный конфигурационный файл Grafana:




# mcedit /etc/grafana/grafana.ini




Найдите директиву allow_sign_up под заголовком [users].




...

[users]

# disable user signup / registration

;allow_sign_up = true

...




Если директива имеет значение true, она добавляет на экран входа в систему кнопку Sign Up, что позволяет пользователям регистрироваться и получать доступ к Grafana.




Значение false удаляет кнопку Sign Up и повышает безопасность и конфиденциальность Grafana.




Если вы не хотите разрешать анонимным посетителям регистрироваться, раскомментируйте эту директиву, удалив точку с запятой в начале строки, а затем установите значение false.




...

[users]

# disable user signup / registration

allow_sign_up = false

...




Найдите директиву enabled под заголовком [auth.anonymous].




...

[auth.anonymous]

# enable anonymous access

;enabled = false

...




Значение true в этой директиве дает незарегистрированным пользователям возможность получить доступ к вашим панелям мониторинга. Значение false ограничивает доступ, и панели мониторинга смогут использовать только зарегистрированные пользователи.




Если вы не хотите разрешать анонимный доступ к панелям мониторинга, раскомментируйте эту директиву, а затем установите значение false.




...

[auth.anonymous]

# enable anonymous access

enabled = false

...




Сохраните и закройте файл.




Перезапустите Grafana:




# systemctl restart grafana-server




Чтобы убедиться, что все работает, проверьте состояние Grafana:




# systemctl status grafana-server




Как и раньше, в выводе вы увидите active (running).







Если это не так, просмотрите сообщения терминала для получения дополнительной справки.




На данный момент Grafana полностью настроена и готова к использованию.




6. Grafana Server web-интерфейс.




Проследуем:




# http://IP-адрес:3000/




Если вы видите кнопку Sign Up или можете анонимно войти в систему, повторите предыдущие действия, чтобы устранить проблему, прежде чем продолжить работу.




Если кнопки Sign Up нет, то можете смело продолжать настройку дальше.







По умолчанию логин admin и пароль тоже admin.




После первого успешного ввода технического пароля и логина, Grafana Server предложит вам придумать и ввести свои рабочий пароль.







Воспользуемся этим и поменяем пароль на свой.




Внимание! Потом не забудьте поменять логин администратора Grafana Server и настроить анкету учетной записи администратора, настроить электронную почту, название организации и прочие мелочи.




Проходим дальше и попадаем в графическую инструкцию тех шагов, которые потребуется выполнить, чтобы начать пользоваться Grafana. Обратите внимание на верхнюю строку с пиктограммами, там отображается путь того, что нужно настроить для успешного ввода в эксплуатацию графической оболочки Grafana Server.







Чтобы начать что-то мониторить, нам нужен источник данных. Нажимаем Add data source.







Попадаем в меню выбора источников данных Grafana Server. Так как у нас уже установлен Prometheus Server, то пришло время их связать вместе в единый комплекс.




Примечание: Каждый сервер Prometheus – отдельный источник данных. Чтобы добавить несколько серверов Prometheus, нужно повторить инструкции данного раздела.







Здесь же в анкете есть вкладка Dashboards — это заранее сделанные для нас панели мониторинга от разработчиков Grafana. Позднее вы сами можете добавить или разработать свои панели мониторинга. Добавлять то, что предлагается в настройке по умолчанию не надо. Далее по инструкции мы добавим отличную панель Node Exporter Full.




Вернемся в анкету Settings, которую следует заполнить согласно тем параметрам, которые мы указывали для Prometheus Server по тексту инструкции выше. Возвращаемся на вкладку Settings и нажимаем кнопку зеленую кнопку Save & Test. Если все параметры введены верно, то тест будет пройден исправно и сохранение параметров засчитывается.







6.1. Создание панели мониторинга.




Для начала мониторинга, логично, создадим Панель мониторинга:




1. Нажмите кнопку Home —> New dashboard.




2. Нажмите кнопку Add Query. Grafana создает базовую графическую панель со сценарием Random Walk. Заполним анкету запросов по образцу из картинки. Источником Query выберем наш Prometheus Server. В качестве запроса используем запрос node_memory_MemFree_bytes.







Сохраните приборную панель. Щелкните значок дискетки Save dashboard в верхнем правом углу экрана.




Важно! Нажмите кнопку Save в верхнем меню, чтобы сохранить новый дашборд в Grafana. В противном случае дашборд исчезнет из настроек после обновления браузера.







Поздравляю, вы начали что-то измерять с Grafana! У вас есть панель мониторинга и отображаются результаты. Не стесняйтесь экспериментировать с тем, что вы построили, продолжать добавлять другие источники данных.




Если вы знаете что вам нужно, создайте свою панель мониторинга. Если еще не знаете, предлагаю подключить готовые.




6.2. Подключение готовой панели мониторинга.




Для Grafana есть специальный портал, где можно бесплатно скачать готовые панели мониторинга под любые нужды и под любые запросы.




Ссылка на портал полезной Панельюgrafana.com.




Среди них есть она очень полезная панель. Называется она Node Exporter Full. В ней есть мониторинг всех важных параметров сервера.










Проследуем по ссылке на портале до Node Exporter Fullgrafana.com.







Скачаем файл последней ревизии с панелью мониторинга Node Exporter Full. После скачивания файл будет называться node-exporter-full_rev16.json.




Теперь этот файл импортируем в Grafana.




Выходим на Главную страницу приветствия —> нажимаем Home:







Выбираем импорт панели Import dashboard:







Переходим в окно импорта и нажимаем Upload .json file и импортируем файл node-exporter-full_rev16.json.







Заполняем анкету панели своими данными и подключаем свой сервер для мониторинга по аналогии:







Нажимаем Import и панель мониторинга начинает отображать метрики нашего Prometheus Server:




Внимание! Панель мониторинга может минут 5 ничего не отображать или отображать что-то частично. Ничего страшного. Просто подождите пока все метрики наработают свою базу данных, чтобы вам что-то начать показывать на графиках. Через некоторое время зайдите в панель мониторинга и все панельки будет отображать информацию исправно.







Слева у каждой подпанели есть значок «птичка-галочка» (слева от начала заголовка каждой вкладки) за который можно свернуть или развернуть нужную вкладку общей панели мониторинга.







После всего этого нажимаем значок дискеты Сохранить (1) и наша панель мониторинга будет сохранена и привязана к Prometheus Server. Пометим ее в закладки значком Звездочки (2). Выйдем на Главную страницу (3) экрана приветствия Grafana Server.




Теперь у нас организован мониторинг основных параметров сервера на котором развернуты Prometheus Server с графической оболочкой Grafana Server.







Как ботать дальше с этими системами можно легко узнать в Интернете. Информации очень много. Системы достаточно популярные.




Если что-то появится интересное, то я обязательно добавлю эти готовые решения на свой сайт и ссылку на них в эту инструкцию.




7. Grafana Server через Nginx.




Если на сервере установлен Nginx и имеется доменное имя, можно пробросить пробросить через него вход в интерфейс Grafana Server.




Если у вас не поднят web-сервер, то вы можете создать его по инструкции: «CentOS 7: Настройка web-сервера Nginx и выход в Интернет со своим доменным именем.»




Приступим к написанию файла конфигурации:




# mcedit /etc/nginx/conf.d/grafana_server.conf




Для этого в папке с конфигурациями Nginx создаем конфигурацию вот с таким текстом:




server {

    listen 80;

    server_name grafana-server.name.ru;

    access_log /grafana-server/log/access.log;

    error_log /grafana-server/log/error.log;

    return 301 https://$server_name$request_uri;

    }



server {

    listen 443 ssl http2;

    server_name mt.hamsterden.ru;

    access_log /grafana-server/log/access.log;

    error_log /grafana-server/log/error.log;

    ssl_certificate		/etc/letsencrypt/live/grafana-server.name.ru/fullchain.pem;

    ssl_certificate_key		/etc/letsencrypt/live/grafana-server.name.ru/privkey.pem;

    ssl_trusted_certificate	/etc/letsencrypt/live/grafana-server.name.ru/fullchain.pem;



    location / {

#       auth_basic "Воинское звание? Цель прибытия?";

#       auth_basic_user_file /etc/nginx/htpasswd;

        proxy_pass http://localhost:3000/;    

	proxy_set_header Host $host;

	proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;

	proxy_set_header X-Real-IP $remote_addr;

    }

}




Как его модифицировать и усилить вы можете почитать в руководствах для Nginx.




Перезапустим Nginx:




# systemctl restart nginx




Заходим в браузере:




# https://grafana-server.name.ru




8. Сброс до заводских настроек.




Для того, чтобы сбросить Grafana Server до заводских настроек, достаточно удалить файл grafana.db, в каталоге /var/lib/grafana.




После этого нужно будет заново настраивать администратора, учетные записи и источники данных. Вы получите полностью голую и чистую систему.




# rm -Rf /var/lib/grafana/grafana.db




Перезапустите Grafana:




# sudo systemctl restart grafana-server




Теперь при входе в Grafana Server вы должны будете проходить все этапы настройки заново.




9. Смена порта программы по умолчанию.




По умолчанию программа использует 3000 порт. Но его можно легко поменять в главном файле настроек программы grafana.ini в каталоге /etc/grafana.




Откройте главный конфигурационный файл Grafana:




# mcedit /etc/grafana/grafana.ini




Найдите директиву http_port под заголовком [server].




[server]

...

# The http port to use

;http_port = 3000

...




Расскоментируйте ее и внесите правки номера своего порта:




[server]

...

# The http port to use

http_port = 3333

...




Сохраните и закройте файл.




Перезапустите Grafana:




# sudo systemctl restart grafana-server




Чтобы убедиться, что все работает, проверьте состояние Grafana:




# sudo systemctl status grafana-server




Как и раньше, в выводе вы увидите active (running).







Прежде чем переходить в web-интерфейс Grafana по новому порту не забудьте открыть новый порт, а так же внести правки в конфигурацию Nginx, иначе web-интерфейс будет недоступен.







Проследуем:




# http://IP-адрес:3333/




10. Список доступных метрик.




Список доступных метрик можно найти по ссылке:




# http://<your_server_ip>:9090/metrics




Все эти метрики можно скопировать и вставить в редактор запросов Grafana.




Чтобы изменения настроек вступили в силу, нужно сохранить дашборд.




11. Оригиналы источников информации.




  1. prometheus.io «Grafana | Prometheus».
  2. grafana.com«Install on RPM-based Linux (CentOS, Fedora, OpenSuse, Red Hat)».
  3. grafana.com«Node Exporter Fullby idealista».
  4. laurvas.ru «Осваиваем мониторинг с Prometheus. Часть 1. Знакомство и установка.».
  5. eax.me «Устанавливаем связку из Prometheus и Grafana».
  6. 8host.com «Установка и защита Grafana в Ubuntu 16.04».
  7. 8host.com «Добавление дашборда Prometheus в Grafana».




Источник: https://hamsterden.ru/grafana-server/



2021-08-15T20:36:22
Software