Extrait les têtes de minifigs depuis l'inventaire agrégé

2025-12-02 00:18:22 +01:00
parent 51d8ab056f
commit 5b1a94023b
4 changed files with 158 additions and 0 deletions
--- a/README.md
+++ b/README.md
@@ -216,3 +216,10 @@ Ces scripts lisent les CSV bruts du catalogue complet (`data/raw/inventories.csv

 Le script relit les sets (`data/raw/themes.csv`, `data/raw/sets.csv`, `data/intermediate/sets_filtered.csv`, `data/intermediate/sets_enriched.csv`) ainsi que les inventaires (`data/raw/inventories.csv`, `data/raw/inventory_minifigs.csv`), recalcule toutes les statistiques de base puis régénère `data/final/stats.csv` en y ajoutant le libellé « Nombre total de minifigs (thèmes filtrés) ».
 Cette étape se lance après le téléchargement des données d'inventaire (étape 8) et doit être rejouée si les sets filtrés ou les inventaires sont mis à jour.
+
+### Étape 20 : lister les têtes de minifigs par set
+
+1. `source .venv/bin/activate`
+2. `python -m scripts.compute_minifigs_by_set`
+
+Le script lit l'inventaire agrégé `data/intermediate/parts_filtered.csv` ainsi que le catalogue des pièces (`data/raw/parts.csv`). Il sélectionne les têtes de minifigs (catégorie 59), ignore les rechanges et dédoublonne par set et référence. Le CSV `data/intermediate/minifigs_by_set.csv` contient une ligne par set et par référence de tête : `set_num`, `part_num`, `part_name`.
--- a/lib/rebrickable/minifigs_by_set.py
+++ b/lib/rebrickable/minifigs_by_set.py
@@ -0,0 +1,82 @@
+"""Extraction des têtes de minifigs présentes dans chaque set filtré."""
+
+import csv
+from pathlib import Path
+from typing import Dict, Iterable, List, Sequence, Set, Tuple
+
+from lib.filesystem import ensure_parent_dir
+from lib.rebrickable.minifig_heads import HEAD_CATEGORIES
+from lib.rebrickable.stats import read_rows
+
+
+def load_parts_filtered(path: Path) -> List[dict]:
+    """Charge parts_filtered.csv en mémoire."""
+    return read_rows(path)
+
+
+def load_parts_catalog(path: Path) -> Dict[str, dict]:
+    """Construit un index des pièces avec leur catégorie et leur nom."""
+    catalog: Dict[str, dict] = {}
+    with path.open() as catalog_file:
+        reader = csv.DictReader(catalog_file)
+        for row in reader:
+            catalog[row["part_num"]] = row
+    return catalog
+
+
+def select_head_parts(catalog: Dict[str, dict]) -> Set[str]:
+    """Sélectionne les références de têtes via leur catégorie."""
+    return {part_num for part_num, row in catalog.items() if row["part_cat_id"] in HEAD_CATEGORIES}
+
+
+def aggregate_heads_by_set(
+    parts_rows: Iterable[dict],
+    catalog: Dict[str, dict],
+    head_parts: Set[str],
+) -> List[dict]:
+    """Agrège les têtes de minifigs par set en éliminant les rechanges et doublons."""
+    seen: Set[Tuple[str, str]] = set()
+    heads: List[dict] = []
+    for row in parts_rows:
+        if row["part_num"] not in head_parts:
+            continue
+        if row["is_spare"] == "true":
+            continue
+        key = (row["set_num"], row["part_num"])
+        if key in seen:
+            continue
+        part = catalog[row["part_num"]]
+        heads.append(
+            {
+                "set_num": row["set_num"],
+                "part_num": row["part_num"],
+                "part_name": part["name"],
+            }
+        )
+        seen.add(key)
+    heads.sort(key=lambda row: (row["set_num"], row["part_num"]))
+    return heads
+
+
+def write_heads_by_set(destination_path: Path, rows: Sequence[dict]) -> None:
+    """Écrit le CSV intermédiaire listant les têtes de minifigs par set."""
+    ensure_parent_dir(destination_path)
+    fieldnames = ["set_num", "part_num", "part_name"]
+    with destination_path.open("w", newline="") as csv_file:
+        writer = csv.DictWriter(csv_file, fieldnames=fieldnames)
+        writer.writeheader()
+        for row in rows:
+            writer.writerow(row)
+
+
+def build_minifigs_by_set(
+    parts_filtered_path: Path,
+    parts_catalog_path: Path,
+    destination_path: Path,
+) -> None:
+    """Construit le CSV listant les têtes de minifigs présentes par set."""
+    parts_rows = load_parts_filtered(parts_filtered_path)
+    parts_catalog = load_parts_catalog(parts_catalog_path)
+    head_parts = select_head_parts(parts_catalog)
+    heads = aggregate_heads_by_set(parts_rows, parts_catalog, head_parts)
+    write_heads_by_set(destination_path, heads)
--- a/scripts/compute_minifigs_by_set.py
+++ b/scripts/compute_minifigs_by_set.py
@@ -0,0 +1,23 @@
+"""Liste les têtes de minifigs présentes dans chaque set filtré."""
+
+from pathlib import Path
+
+from lib.rebrickable.minifigs_by_set import build_minifigs_by_set
+
+
+PARTS_FILTERED_PATH = Path("data/intermediate/parts_filtered.csv")
+PARTS_CATALOG_PATH = Path("data/raw/parts.csv")
+DESTINATION_PATH = Path("data/intermediate/minifigs_by_set.csv")
+
+
+def main() -> None:
+    """Construit le CSV listant les têtes de minifigs par set."""
+    build_minifigs_by_set(
+        PARTS_FILTERED_PATH,
+        PARTS_CATALOG_PATH,
+        DESTINATION_PATH,
+    )
+
+
+if __name__ == "__main__":
+    main()
--- a/tests/test_minifigs_by_set.py
+++ b/tests/test_minifigs_by_set.py
@@ -0,0 +1,46 @@
+"""Tests de l'extraction des têtes de minifigs par set."""
+
+from pathlib import Path
+
+from lib.rebrickable.minifigs_by_set import build_minifigs_by_set
+
+
+def write_csv(path: Path, content: str) -> None:
+    """Écrit un CSV brut."""
+    path.write_text(content)
+
+
+def test_build_minifigs_by_set_filters_spares_and_deduplicates(tmp_path) -> None:
+    """Identifie les têtes de minifigs par set en dédupliquant et en excluant les rechanges."""
+    parts_filtered_path = tmp_path / "parts_filtered.csv"
+    write_csv(
+        parts_filtered_path,
+        "part_num,color_rgb,is_translucent,set_num,set_id,year,quantity_in_set,is_spare,is_minifig_part\n"
+        "head-a,ffffff,false,123-1,123,2020,1,false,true\n"
+        "head-b,ffffff,false,123-1,123,2020,2,false,true\n"
+        "head-b,ffffff,false,123-1,123,2020,1,true,true\n"
+        "head-b,ffffff,false,124-1,124,2021,1,false,true\n"
+        "other,000000,false,123-1,123,2020,1,false,false\n",
+    )
+    parts_catalog_path = tmp_path / "parts.csv"
+    write_csv(
+        parts_catalog_path,
+        "part_num,name,part_cat_id\n"
+        "head-a,Head A,59\n"
+        "head-b,Head B,59\n"
+        "other,Other,1\n",
+    )
+    destination_path = tmp_path / "minifigs_by_set.csv"
+
+    build_minifigs_by_set(
+        parts_filtered_path,
+        parts_catalog_path,
+        destination_path,
+    )
+
+    assert destination_path.read_text() == (
+        "set_num,part_num,part_name\n"
+        "123-1,head-a,Head A\n"
+        "123-1,head-b,Head B\n"
+        "124-1,head-b,Head B\n"
+    )