Project Title : Reinforcement_Learning_Project

Overview

Constraint Policy Optimization (CPO) is a reinforcement learning algorithm designed to optimize policies while adhering to predefined constraints. It extends Trust Region Policy Optimization (TRPO) by incorporating constraints on expected costs, ensuring that policies remain within safe operational bounds

Features

Policy network using a Gaussian distribution over actions

Value function network for estimating state values

Implementation of Generalized Advantage Estimation (GAE)

KL divergence constraint for policy updates

Cost value function for maintaining safety constraints

Optimization using Adam optimizer

Requirements

Ensure you have the following dependencies installed before running the project:

pip install torch gym numpy matplotlib

Customizing Parameters

Modify hyperparameters such as discount factor (gamma), constraint threshold (delta), and KL divergence limit (max_kl) in Constraint_Policy_optimization.py.

References

Achiam, J., Held, D., Tamar, A., & Abbeel, P. (2017). "Constrained Policy Optimization." arXiv:1705.10528

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.gitignore		.gitignore
Constraint_Policy_Optimization		Constraint_Policy_Optimization
README.md		README.md
RL_final_report.pdf		RL_final_report.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Project Title : Reinforcement_Learning_Project

Overview

Features

Requirements

Customizing Parameters

References

About

Uh oh!

Releases

Packages

surabhigade/Reinforcement_Learning_Project

Folders and files

Latest commit

History

Repository files navigation

Project Title : Reinforcement_Learning_Project

Overview

Features

Requirements

Customizing Parameters

References

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages