Merge dev: bug fixes, type safety, and test improvements

tclark-ufl · tclark-ufl · commit f1ece4769e2c · 2025-12-17T22:53:05.000-05:00
diff --git a/data/sample_input.csv b/data/sample_input.csv
diff --git a/src/dii/__main__.py b/src/dii/__main__.py
@@ -16,7 +16,6 @@
 
 from .calculator import calculate_dii, calculate_dii_detailed
 from .reader import load_nutrient_data, validate_input_file
-from .reference import get_available_nutrients
 from .viewer import display_results, display_nutrients_table
 from . import __version__
 
diff --git a/src/dii/calculator.py b/src/dii/calculator.py
@@ -44,7 +44,7 @@
 from __future__ import annotations
 
 import warnings
-from typing import List, Optional, Tuple, Union
+from typing import Optional, Union
 
 import numpy as np
 import pandas as pd
@@ -320,6 +320,7 @@ def calculate_dii(
             f"Non-numeric data found in columns {coerced_cols}. "
             "Values were coerced to numeric (non-convertible values become NaN).",
             UserWarning,
+            stacklevel=2,
         )
 
     # === COVERAGE WARNING ===
@@ -333,6 +334,7 @@ def calculate_dii(
             "DII scores may be less reliable with limited nutrients. "
             "Consider adding more nutrient columns if available.",
             UserWarning,
+            stacklevel=2,
         )
 
     # Filter reference to matched nutrients only
@@ -384,6 +386,8 @@ def _calculate_dii_simple(
 
     # Vectorized DII calculation with explicit float64
     total_scores = np.zeros(len(nutrient_data), dtype=FLOAT_DTYPE)
+    # Track if each row has at least one valid (non-NaN) contribution
+    has_valid_data = np.zeros(len(nutrient_data), dtype=bool)
 
     for _, ref_row in reference_df.iterrows():
         nutrient = ref_row[NUTRIENT_COL]
@@ -411,11 +415,16 @@ def _calculate_dii_simple(
         # Compute contribution (weight × percentile)
         contributions = percentiles * weight
 
+        # Track rows with valid data for this nutrient
+        has_valid_data |= ~np.isnan(contributions)
+
         # Add to total (handling NaN)
         total_scores = np.nansum(
             np.stack([total_scores, contributions]), axis=0
         ).astype(FLOAT_DTYPE)
 
+    # Set DII to NaN for rows with no valid nutrient data
+    total_scores = np.where(has_valid_data, total_scores, np.nan)
     result["DII_score"] = total_scores
     return result
 
@@ -464,11 +473,13 @@ def _calculate_dii_detailed(
     # Initialize result with ID column if provided
     result_data = {}
     if id_column and id_column in nutrient_data.columns:
-        result_data[id_column] = nutrient_data[id_column].values
+        result_data[id_column] = nutrient_data[id_column].to_numpy()
 
     # Pre-allocate arrays for all calculations (float64)
     n_rows = len(nutrient_data)
     total_scores = np.zeros(n_rows, dtype=FLOAT_DTYPE)
+    # Track if each row has at least one valid (non-NaN) contribution
+    has_valid_data = np.zeros(n_rows, dtype=bool)
 
     # Calculate for each nutrient
     for _, ref_row in reference_df.iterrows():
@@ -497,11 +508,16 @@ def _calculate_dii_detailed(
         result_data[f"{nutrient}_percentile"] = percentiles
         result_data[f"{nutrient}_contribution"] = contributions
 
+        # Track rows with valid data for this nutrient
+        has_valid_data |= ~np.isnan(contributions)
+
         # Accumulate total (handling NaN)
         total_scores = np.nansum(
             np.stack([total_scores, contributions]), axis=0
         ).astype(FLOAT_DTYPE)
 
+    # Set DII to NaN for rows with no valid nutrient data
+    total_scores = np.where(has_valid_data, total_scores, np.nan)
     result_data["DII_score"] = total_scores
 
     return pd.DataFrame(result_data)
diff --git a/src/dii/data/dii_reference.csv b/src/dii/data/dii_reference.csv
@@ -1,7 +1,7 @@
 nutrient,weight,global_mean,global_sd
 Alcohol,-0.278,13.98,3.72
-vitamin B12,0.106,5.15,2.7
-vitamin B6,-0.365,1.47,0.74
+Vitamin B12,0.106,5.15,2.7
+Vitamin B6,-0.365,1.47,0.74
 Beta-carotene,-0.584,3718,1720
 Caffeine,-0.11,8.05,6.67
 Carbohydrate,0.097,272.2,40
diff --git a/src/dii/viewer.py b/src/dii/viewer.py
@@ -9,7 +9,7 @@
 
 import pandas as pd
 
-from .reference import load_reference_table, get_available_nutrients
+from .reference import load_reference_table
 
 
 def display_results(
@@ -61,15 +61,15 @@ def _print_summary(results: pd.DataFrame, detailed: bool = False) -> None:
     n = len(scores)
     
     print(f"\nParticipants: {n}")
-    print(f"\nDII Score Summary:")
+    print("\nDII Score Summary:")
     print(f"  Mean:   {scores.mean():>8.3f}")
     print(f"  Std:    {scores.std():>8.3f}")
     print(f"  Min:    {scores.min():>8.3f}")
     print(f"  Max:    {scores.max():>8.3f}")
     print(f"  Median: {scores.median():>8.3f}")
     
     # Interpretation breakdown
-    print(f"\nScore Distribution:")
+    print("\nScore Distribution:")
     anti_inflammatory = (scores < -1).sum()
     neutral = ((scores >= -1) & (scores <= 1)).sum()
     pro_inflammatory = (scores > 1).sum()
@@ -79,7 +79,7 @@ def _print_summary(results: pd.DataFrame, detailed: bool = False) -> None:
     print(f"  Pro-inflammatory (> 1):    {pro_inflammatory:>4} ({pro_inflammatory/n*100:>5.1f}%)")
     
     if detailed and n <= 20:
-        print(f"\nIndividual Scores:")
+        print("\nIndividual Scores:")
         for i, score in enumerate(scores):
             interpretation = _interpret_score(score)
             print(f"  Row {i+1:>3}: {score:>8.3f}  ({interpretation})")
diff --git a/src/dii/visualization.py b/src/dii/visualization.py
@@ -8,7 +8,7 @@
 """
 
 from pathlib import Path
-from typing import Optional, Union, List
+from typing import Optional, Union
 
 import pandas as pd
 import numpy as np
@@ -75,7 +75,8 @@ def plot_dii_distribution(
     )
     
     # Color bars by category
-    for i, patch in enumerate(patches):
+    # Note: BarContainer is iterable but mypy stubs don't reflect this correctly
+    for i, patch in enumerate(list(patches)):  # type: ignore[arg-type]
         bin_center = (bins[i] + bins[i+1]) / 2
         if bin_center < -1:
             patch.set_facecolor('#2ecc71')  # Green - anti-inflammatory
@@ -184,11 +185,11 @@ def plot_nutrient_contributions(
     fig, ax = plt.subplots(figsize=figsize)
     
     # Colors based on direction
-    colors = ['#2ecc71' if v < 0 else '#e74c3c' for v in contributions.values]
+    colors = ['#2ecc71' if v < 0 else '#e74c3c' for v in contributions.to_numpy()]
     
     # Create bars
     y_pos = np.arange(len(contributions))
-    bars = ax.barh(y_pos, contributions.values, color=colors, edgecolor='white', linewidth=0.5)
+    ax.barh(y_pos, contributions.values, color=colors, edgecolor='white', linewidth=0.5)
     
     # Labels
     ax.set_yticks(y_pos)
@@ -273,9 +274,10 @@ def plot_dii_categories_pie(
     
     colors = ['#2ecc71', '#f39c12', '#e74c3c'][:len(categories)]
     
-    wedges, texts, autotexts = ax.pie(
-        categories.values(),
-        labels=categories.keys(),
+    # Note: ax.pie returns 3 values when autopct is provided, but stubs don't reflect this
+    wedges, texts, autotexts = ax.pie(  # type: ignore[misc]
+        list(categories.values()),
+        labels=list(categories.keys()),
         colors=colors,
         autopct=lambda pct: f'{pct:.1f}%\n({int(pct/100*len(scores)):,})',
         startangle=90,
diff --git a/templates/input_template.csv b/templates/input_template.csv
@@ -1,5 +1,4 @@
-participant_id,Alcohol,vitamin B12,vitamin B6,Beta-carotene,Caffeine,Carbohydrate,Cholesterol,Energy,Total fat,Fiber,Folic acid,Iron,Magnesium,MUFA,Niacin,n-3 fatty acid,n-6 fatty acid,Protein,PUFA,Riboflavin,Saturated fat,Selenium,Thiamin,Trans fat,Vitamin A,Vitamin C,Vitamin D,Vitamin E,Zinc
+participant_id,Alcohol,Vitamin B12,Vitamin B6,Beta-carotene,Caffeine,Carbohydrate,Cholesterol,Energy,Total fat,Fiber,Folic acid,Iron,Magnesium,MUFA,Niacin,n-3 fatty acid,n-6 fatty acid,Protein,PUFA,Riboflavin,Saturated fat,Selenium,Thiamin,Trans fat,Vitamin A,Vitamin C,Vitamin D,Vitamin E,Zinc
 1,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
 2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
 3,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
-
diff --git a/tests/test_dii.py b/tests/test_dii.py