SNCF DelayFlow — TGV Delay Analytics Pipeline
Pipeline ETL end-to-end traitant les données de ponctualité TGV (SNCF Open Data) avec PySpark. Inclut la transformation distribuée via Spark SQL, le stockage structuré Parquet, un modèle prédictif Random Forest (Scikit-learn) pour la prévision des retards moyens, et un dashboard interactif Streamlit pour le diagnostic des causes racines (infrastructure, trafic, matériel roulant).