Erstellen einer Sammlung von Leitsätzen des BGH (X. und Xa. Zivilsenat) und des BPatG im Zeitraum 2000 bis 2025
Der Quellcode dient der Erstellung einer Sammlung von Leitsätzen des BGH (X. und Xa. Zivilsenat) und des BPatG im Zeitraum 2000 bis 2025.
Formate: .docx, .txt, .md
Als Quelle werden folgende Datensätze verwendet, aus denen die Daten extrahiert werden:
- Fobbe, S. (2025). Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH) (2025-04-07) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.15153244 (GitHub: https://github.com/SeanFobbe/ce-bgh)
- Fobbe, S. (2025). Corpus der Entscheidungen des Bundespatentgerichts (CE-BPatG) (2025-07-08) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.15754093 (GitHub: https://github.com/SeanFobbe/ce-bpatg)
Die Erstellung erfolgt in drei Schritten:
- Datenvorbereitung
- Extraktion der Leitsätze
- Erstellen der Dokumente
Die Dateien prep_data_feather.R und prep_src_data.py dienen der Datenvorbereitung. In einem ersten Schritt werden die Datensätze CE-BGH und CE-BPatG (im .csv Format) mit prep_data_feather.R in das .feather Format gebracht und dabei die Entscheidungen des X. und Xa. Zivilsenats herausgefiltert (Zielordner ist prep_data). In einem zweiten Schritt werden mit der Datei prep_src_data.py die .feather Dateien nach Leitsatzentscheidungen gefiltert und als .xls Dateien gespeichtert (df_zs10_ls.xlsx, df_zs10a_ls.xlsx und df_bpatg_ls.xlsx).
Die Datei extract_ls_to_xls.py extrahiert die Leitsätze aus der Spalte "text" und erstellt dabei eine neue Spalte "leitsatz". Als Ergebnis wird eine Datei ls_all.xlsx im Ordner src_data erstellt.
Die Datei xls_to_documents.py wandelt die Tabelle ls_all.xlsx in Dokumente um (Ergebnis im Ordner "sammlung": sammlung_bgh_bpatg.docx, sammlung_bgh_bpatg.txt und sammlung_bgh_bpatg.md)