Grafana Alloy : Collecter les métriques système et les logs locaux

Publié le : 25/05/2024 à 10:00 Vues : 548

Découvrez comment configurer Grafana Alloy pour superviser le serveur sur lequel il s'exécute, avec un focus sur les méthodes de configuration (UI vs Code) et leurs impacts.

1. Introduction

Superviser l'hôte local

Le besoin

Pourquoi collecter en local ?

Bien que Grafana Alloy excelle dans le routage de télémétrie distante, sa première utilité est souvent de superviser la machine sur laquelle il est installé. Alloy embarque nativement des intégrations (similaires à node_exporter ou promtail) pour collecter l'utilisation CPU/RAM, l'espace disque, et lire les fichiers de logs systèmes (comme /var/log/syslog) ou ses propres logs de fonctionnement.

2. L'approche par l'interface Web (UI)

Simple mais fortement déconseillée en production

Le piège de la facilité

Add Connection -> Linux

Dans Grafana (et particulièrement Grafana Cloud), vous disposez d'un menu Connections > Add new connection qui propose de configurer un serveur Linux en quelques clics. L'interface génère alors une longue commande Bash à copier-coller sur votre serveur, qui installe Alloy et télécharge une configuration River générée automatiquement.

Pourquoi l'éviter ?

Les limites de l'assistant

Bien que cette méthode soit idéale pour un test rapide (PoC), elle présente des risques majeurs en entreprise :

Absence de versionning (GitOps) : La configuration échappe à votre contrôle de version (Git). Si quelqu'un modifie la configuration depuis l'UI, vous créez une dérive (configuration drift).
Opacité : Le script installe et configure des composants implicitement. En cas d'erreur de parsing ou de droits, le dépannage est complexe.
Incompatibilité avec l'automatisation : En production, le déploiement doit être industrialisé via Ansible, Terraform, ou Helm, ce que l'assistant graphique rend obsolète.

3. L'approche "Configuration as Code" (River)

La méthode recommandée

Collecter les métriques système (CPU, RAM...)

Utilisation de prometheus.exporter.unix

Alloy intègre un équivalent de node_exporter. Pour collecter les métriques locales et les envoyer vers Mimir ou Prometheus, ajoutez ce bloc :

// 1. Activation de l'exportateur système
prometheus.exporter.unix "local_system" {
  enable_collectors = ["cpu", "meminfo", "diskstats", "netdev"]
}

// 2. Scraping des métriques exposées en local
prometheus.scrape "scrape_system" {
  targets    = prometheus.exporter.unix.local_system.targets
  forward_to = [prometheus.remote_write.mimir.receiver]
  scrape_interval = "15s"
}

// 3. Point de destination
prometheus.remote_write "mimir" {
  endpoint {
    url = "http://mon-mimir:9009/api/v1/push"
  }
}

Explication des blocs :

prometheus.exporter.unix : Active la collecte des métriques système (CPU, RAM, disques, etc.) directement sur l'hôte, agissant comme un node_exporter intégré.
prometheus.scrape : Interroge (scrape) l'exportateur configuré à intervalles réguliers (ici toutes les 15 secondes) pour récupérer les métriques.
prometheus.remote_write : Définit la destination finale où les métriques collectées seront envoyées (par exemple, une instance Mimir ou Prometheus).

Collecter les logs du système

Fichiers locaux vers Loki

Pour collecter les logs classiques d'un système Linux (auth.log, syslog) :

local.file_match "system_logs" {
  path_targets = [
    {"__path__" = "/var/log/syslog"},
    {"__path__" = "/var/log/auth.log"}
  ]
}

loki.source.file "read_logs" {
  targets    = local.file_match.system_logs.targets
  forward_to = [loki.write.loki_endpoint.receiver]
}

loki.write "loki_endpoint" {
  endpoint {
    url = "http://mon-loki:3100/loki/api/v1/push"
  }
}

Note : Assurez-vous que l'utilisateur système alloy a les droits de lecture sur /var/log (ex: via le groupe adm).

Explication des blocs :

local.file_match : Découvre les fichiers de logs sur le disque local en se basant sur les chemins spécifiés.
loki.source.file : Lit (tail) les fichiers découverts pour en extraire les nouvelles lignes de logs en continu.
loki.write : Transfère les lignes de logs collectées vers un backend Loki.

Auto-supervision : Les logs d'Alloy

Surveiller le collecteur lui-même

Si Alloy est lancé en tant que service systemd, la méthode la plus robuste pour récupérer ses propres logs et détecter s'il a des problèmes est de lire journald :

loki.source.journal "alloy_journal" {
  format_as_json = true
  max_age = "12h"
  forward_to = [loki.write.loki_endpoint.receiver]
  relabel_rules = discovery.relabel.journal_filter.rules
}

discovery.relabel "journal_filter" {
  // Ne garder que les logs du service systemd "alloy"
  rule {
    source_labels = ["__journal__systemd_unit"]
    regex         = "alloy\\.service"
    action        = "keep"
  }
  // Renommer le label pour Loki
  rule {
    source_labels = ["__journal__systemd_unit"]
    target_label  = "unit"
  }
}

Explication des blocs :

loki.source.journal : Lit les journaux directement depuis systemd-journald.
discovery.relabel : Filtre les entrées du journal pour ne conserver que celles du service alloy.service et renomme les métadonnées (labels) pour qu'elles soient lisibles dans Loki.

Alternative : Lecture directe des fichiers avec OpenTelemetry (otel)

Si Alloy consigne ses logs dans un fichier statique (ex: /var/log/alloy/alloy.log), vous pouvez utiliser les composants natifs OpenTelemetry pour lire ces fichiers au lieu des composants spécifiques à Loki :

otelcol.receiver.filelog "alloy_file" {
  include = ["/var/log/alloy/alloy.log"]
  output {
    logs = [otelcol.exporter.loki.default.input]
  }
}

otelcol.exporter.loki "default" {
  forward_to = [loki.write.loki_endpoint.receiver]
}

Explication des blocs :

otelcol.receiver.filelog : Composant natif OpenTelemetry qui lit directement les fichiers de logs spécifiés.
otelcol.exporter.loki : Convertit le format de log OpenTelemetry (OTLP) en un format compatible avec Loki, permettant de l'envoyer vers un composant loki.write.

4. Conclusion

Les bénéfices du code

La maîtrise totale

Ce qu'il faut retenir

En écrivant vous-même vos fichiers .river plutôt qu'en utilisant l'interface génératrice de Grafana, vous comprenez exactement quel composant fait quoi. Cela vous permet :

D'isoler facilement un problème si la consommation CPU d'Alloy explose.
De versionner votre configuration sur Git.
De la déployer dynamiquement avec des outils comme Ansible en remplaçant les endpoints (Mimir/Loki) par des variables propres à chaque environnement.

Le saviez-vous ?

1. Introduction

Le besoin

2. L'approche par l'interface Web (UI)

Le piège de la facilité

Pourquoi l'éviter ?

3. L'approche "Configuration as Code" (River)

Collecter les métriques système (CPU, RAM...)

Collecter les logs du système

Auto-supervision : Les logs d'Alloy

Alternative : Lecture directe des fichiers avec OpenTelemetry (otel)

4. Conclusion

La maîtrise totale