118 lines
3.4 KiB
Python
118 lines
3.4 KiB
Python
# meteo/analysis.py
|
||
from __future__ import annotations
|
||
|
||
from typing import Literal
|
||
|
||
import numpy as np
|
||
import pandas as pd
|
||
|
||
from .variables import Variable
|
||
|
||
|
||
def compute_correlation_matrix(
|
||
df: pd.DataFrame,
|
||
*,
|
||
method: Literal["pearson", "spearman"] = "pearson",
|
||
) -> pd.DataFrame:
|
||
"""
|
||
Calcule la matrice de corrélation entre toutes les colonnes numériques
|
||
du DataFrame.
|
||
|
||
Attention :
|
||
- La direction du vent est traitée ici comme une variable scalaire 0–360°,
|
||
ce qui n'est pas idéal pour une analyse circulaire. On affinera plus tard
|
||
si besoin (représentation en sin/cos).
|
||
"""
|
||
numeric_df = df.select_dtypes(include=["number"])
|
||
corr = numeric_df.corr(method=method)
|
||
return corr
|
||
|
||
|
||
def compute_correlation_matrix_for_variables(
|
||
df: pd.DataFrame,
|
||
variables: Sequence[Variable],
|
||
*,
|
||
method: Literal["pearson", "spearman"] = "pearson",
|
||
) -> pd.DataFrame:
|
||
"""
|
||
Calcule la matrice de corrélation pour un sous-ensemble de variables,
|
||
dans un ordre bien défini.
|
||
|
||
Paramètres
|
||
----------
|
||
df :
|
||
DataFrame contenant les colonnes à analyser.
|
||
variables :
|
||
Séquence de Variable décrivant les colonnes à prendre en compte.
|
||
method :
|
||
Méthode de corrélation pandas (pearson, spearman, ...).
|
||
|
||
Retour
|
||
------
|
||
DataFrame :
|
||
Matrice de corrélation, index et colonnes dans le même ordre que
|
||
`variables`, avec les colonnes pandas correspondant aux noms de colonnes
|
||
du DataFrame (ex: "temperature", "humidity", ...).
|
||
"""
|
||
columns = [v.column for v in variables]
|
||
missing = [c for c in columns if c not in df.columns]
|
||
if missing:
|
||
raise KeyError(f"Colonnes manquantes dans le DataFrame : {missing!r}")
|
||
|
||
numeric_df = df[columns].astype(float)
|
||
corr = numeric_df.corr(method=method)
|
||
|
||
# On s'assure de l'ordre
|
||
corr = corr.loc[columns, columns]
|
||
return corr
|
||
|
||
|
||
def compute_lagged_correlation(
|
||
df: pd.DataFrame,
|
||
var_x: Variable,
|
||
var_y: Variable,
|
||
*,
|
||
max_lag_minutes: int = 360,
|
||
step_minutes: int = 10,
|
||
method: Literal["pearson", "spearman"] = "pearson",
|
||
) -> pd.DataFrame:
|
||
"""
|
||
Calcule la corrélation entre deux variables pour une série de décalages
|
||
temporels (lags).
|
||
|
||
Convention :
|
||
- lag > 0 : X "précède" Y de `lag` minutes.
|
||
On corrèle X(t) avec Y(t + lag).
|
||
- lag < 0 : Y "précède" X de |lag| minutes.
|
||
On corrèle X(t) avec Y(t + lag), lag étant négatif.
|
||
|
||
Implémentation :
|
||
- On utilise un DataFrame avec les deux colonnes,
|
||
puis on applique un `shift` sur Y.
|
||
"""
|
||
if var_x.column not in df.columns or var_y.column not in df.columns:
|
||
raise KeyError("Les colonnes demandées ne sont pas présentes dans le DataFrame.")
|
||
|
||
series_x = df[var_x.column]
|
||
series_y = df[var_y.column]
|
||
|
||
lags = range(-max_lag_minutes, max_lag_minutes + 1, step_minutes)
|
||
results: list[tuple[int, float]] = []
|
||
|
||
for lag in lags:
|
||
# Y décalé de -lag : pour lag positif, on corrèle X(t) à Y(t + lag)
|
||
shifted_y = series_y.shift(-lag)
|
||
pair = pd.concat([series_x, shifted_y], axis=1).dropna()
|
||
|
||
if pair.empty:
|
||
corr = np.nan
|
||
else:
|
||
corr = pair.iloc[:, 0].corr(pair.iloc[:, 1], method=method)
|
||
|
||
results.append((lag, corr))
|
||
|
||
lag_df = pd.DataFrame(results, columns=["lag_minutes", "correlation"])
|
||
lag_df = lag_df.set_index("lag_minutes")
|
||
|
||
return lag_df
|