Water Quality Prediction System

A machine learning system for predicting water quality based on physicochemical parameters. This project uses various ML algorithms to classify water quality into three categories: Excellent, Good, and Poor.

📁 Project Structure

Water clarity/
├── README.md                   # This file
├── Water-Clarity-DS.csv       # Dataset containing water quality measurements
├── test.ipynb                 # Jupyter notebook for model development and training
├── water_quality_model.pkl    # Trained machine learning model (serialized)
├── feature_names.json         # List of feature names used by the model
├── class_labels.json          # Mapping of class indices to quality labels
├── predict.py                 # Standalone prediction script
├── api.py                     # API endpoint for model serving
└── __pycache__/              # Python cache files
    └── api.cpython-311.pyc

🔬 Features

The model uses the following water quality parameters to make predictions:

Temperature (°C)
Turbidity (cm)
Dissolved Oxygen (mg/L)
BOD (Biological Oxygen Demand, mg/L)
pH value
Ammonia concentration (mg/L)
Nitrite concentration (mg/L)

🎯 Model Output

The system predicts water quality in three categories:

0: Excellent water quality
1: Good water quality
2: Poor water quality

🚀 Getting Started

Prerequisites

pip install pandas numpy scikit-learn joblib matplotlib seaborn

Quick Start

Using the prediction script directly:

from predict import predict_water_quality

# Example prediction
result = predict_water_quality(
    temp=67.45,
    turbidity=10.13,
    do=0.208,
    bod=7.474,
    ph=4.752,
    ammonia=0.286,
    nitrite=4.355
)

print(f"Water Quality: {result['quality']}")
print(f"Confidence: {result['probabilities']}")

Running the API server:

python api.py

Training your own model:
- Open test.ipynb in Jupyter Notebook
- Run all cells to train and evaluate different models
- The best model will be automatically saved

📊 Dataset Information

The dataset (Water-Clarity-DS.csv) contains water quality measurements with:

European decimal format (comma-separated)
Multiple physicochemical parameters
Balanced sampling across quality categories

🤖 Model Development

Available Models

The system evaluates multiple machine learning algorithms:

Random Forest
Gradient Boosting
Support Vector Machine (SVM)
Logistic Regression
K-Nearest Neighbors

Model Selection Process

Data Preprocessing: Handle European decimal format, balance classes
Model Evaluation: Cross-validation with stratified sampling
Hyperparameter Tuning: Grid search for optimal parameters
Performance Analysis: Classification reports and confusion matrices

Key Functions in `test.ipynb`

load_and_preprocess_data(): Load and clean the dataset
balance_classes(): Balance the dataset for fair training
evaluate_models(): Compare different ML algorithms
optimize_best_model(): Hyperparameter tuning for best model
analyze_feature_importance(): Understand feature contributions

📈 Model Performance

The system automatically selects the best performing model based on cross-validation scores. Typical performance metrics include:

Accuracy scores for each class
F1-scores per quality category
Confusion matrix analysis
Feature importance rankings

🔧 API Usage

The API provides a REST endpoint for making predictions:

# Example API call structure
POST /predict
{
    "temp": 67.45,
    "turbidity": 10.13,
    "do": 0.208,
    "bod": 7.474,
    "ph": 4.752,
    "ammonia": 0.286,
    "nitrite": 4.355
}

📝 Model Artifacts

The system generates several important files:

water_quality_model.pkl: Serialized trained model
feature_names.json: Feature names in correct order
class_labels.json: Quality label mappings

🔍 Feature Importance

The model analyzes which parameters are most important for water quality prediction. This helps understand:

Which measurements have the strongest impact on water quality
How different parameters contribute to the final classification
Insights for water quality monitoring priorities

🎨 Visualization

The Jupyter notebook includes:

Data distribution plots
Model performance comparisons
Feature importance visualizations
Confusion matrix heatmaps

📋 Usage Examples

1. Batch Predictions

import pandas as pd
from predict import predict_water_quality

# Load your data
data = pd.read_csv('new_water_samples.csv')

# Make predictions for each row
predictions = []
for _, row in data.iterrows():
    result = predict_water_quality(
        temp=row['temp'],
        turbidity=row['turbidity'],
        do=row['do'],
        bod=row['bod'],
        ph=row['ph'],
        ammonia=row['ammonia'],
        nitrite=row['nitrite']
    )
    predictions.append(result['quality'])

data['predicted_quality'] = predictions

2. Real-time Monitoring

# Integrate with sensor data
def monitor_water_quality(sensor_data):
    result = predict_water_quality(**sensor_data)

    if result['prediction'] == 2:  # Poor quality
        send_alert(f"Poor water quality detected: {result['quality']}")

    return result

🛠️ Development

Extending the Model

Add new features to the dataset
Update feature_names.json accordingly
Retrain the model using test.ipynb
Test with new prediction scripts

Improving Performance

Collect more training data
Experiment with feature engineering
Try advanced algorithms (XGBoost, Neural Networks)
Implement ensemble methods

📊 Model Evaluation Metrics

The system provides comprehensive evaluation:

Cross-validation scores: Generalization performance
Test accuracy: Final model performance
Per-class metrics: Precision, recall, F1-score
Confusion matrix: Classification details

🔄 Retraining

To retrain the model with new data:

Update Water-Clarity-DS.csv with new samples
Run the complete pipeline in test.ipynb
New model artifacts will be automatically saved
Update prediction scripts if needed

💡 Best Practices

Data Quality: Ensure measurements are accurate and consistent
Feature Scaling: The system handles scaling automatically
Class Balance: Dataset balancing is implemented for fair training
Validation: Always validate predictions with ground truth when possible

🤝 Contributing

Fork the repository
Create your feature branch
Add tests for new functionality
Update documentation
Submit a pull request

📄 License

This project is open source and available under the MIT License.

🆘 Support

For issues or questions:

Check the Jupyter notebook for detailed examples
Review the prediction script for usage patterns
Examine the API code for integration examples

Note: This system is designed for educational and research purposes. For production water quality monitoring, please validate against certified laboratory measurements and follow local regulations.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
__pycache__		__pycache__
.gitignore		.gitignore
README.md		README.md
Water-Clarity-DS.csv		Water-Clarity-DS.csv
api.py		api.py
class_labels.json		class_labels.json
feature_names.json		feature_names.json
predict.py		predict.py
requirements.txt		requirements.txt
run_api.py		run_api.py
test.ipynb		test.ipynb
water_quality_model.pkl		water_quality_model.pkl

junction-DataVim/WaterClarityPrediction

Folders and files

Latest commit

History

Repository files navigation