Avoid generating derivitives of datacite xml files

tmorrell · tmorrell · commit ff97d5a3fa81 · 2018-05-04T14:24:14.000-07:00
diff --git a/caltech_thesis.py b/caltech_thesis.py
@@ -16,134 +16,135 @@ def cleanhtml(raw_html):
 
 files = glob.glob('*.xml')
 for f in files:
-    with open(f) as fd:
-        eprint = xmltodict.parse(fd.read())['eprints']['eprint']
-    print(eprint['title'])
+    if 'datacite' not in f:
+        with open(f) as fd:
+            eprint = xmltodict.parse(fd.read())['eprints']['eprint']
+        print(eprint['title'])
 
-    metadata = {}
+        metadata = {}
     
-    #Transforming Metadata
-    #Creators
-    newa = []
-    info = eprint['creators']['item']
-    new = {}
-    new['affiliations'] = ["California Institute of Technology"]
-    if 'orcid' in info:
-        idv = []
-        nid = {}
-        nid['nameIdentifier'] = info['orcid']
-        nid['nameIdentifierScheme'] ='ORCID'
-        idv.append(nid)
-        new['nameIdentifiers']=idv
-    name = info['name']
-    new['creatorName'] = name['family']+','+name['given']
-    new['givenName'] = name['given']
-    new['familyName'] = name['family']
-    newa.append(new)
+        #Transforming Metadata
+        #Creators
+        newa = []
+        info = eprint['creators']['item']
+        new = {}
+        new['affiliations'] = ["California Institute of Technology"]
+        if 'orcid' in info:
+            idv = []
+            nid = {}
+            nid['nameIdentifier'] = info['orcid']
+            nid['nameIdentifierScheme'] ='ORCID'
+            idv.append(nid)
+            new['nameIdentifiers']=idv
+        name = info['name']
+        new['creatorName'] = name['family']+','+name['given']
+        new['givenName'] = name['given']
+        new['familyName'] = name['family']
+        newa.append(new)
 
-    metadata['creators'] = newa
-    metadata['titles'] = [{'title':eprint['title']}]
-    metadata['publisher'] = "California Institute of Technology"
-    metadata['publicationYear'] = eprint['date']
-    metadata['resourceType']={"resourceType":\
+        metadata['creators'] = newa
+        metadata['titles'] = [{'title':eprint['title']}]
+        metadata['publisher'] = "California Institute of Technology"
+        metadata['publicationYear'] = eprint['date']
+        metadata['resourceType']={"resourceType":\
             "Dissertation ("+eprint['thesis_degree']+")",'resourceTypeGeneral':"Text"}
     
-    if 'doi' in eprint:
-        metadata['identifier'] = {'identifier':eprint['doi'],'identifierType':"DOI"}
+        if 'doi' in eprint:
+            metadata['identifier'] = {'identifier':eprint['doi'],'identifierType':"DOI"}
     
-    metadata['descriptions'] =[{'descriptionType':"Abstract",\
+        metadata['descriptions'] =[{'descriptionType':"Abstract",\
             'description':cleanhtml(eprint['abstract'])}]
-    metadata['formats'] = ['PDF']
-    metadata['version'] = 'Final'
-    metadata['language'] = 'English'
+        metadata['formats'] = ['PDF']
+        metadata['version'] = 'Final'
+        metadata['language'] = 'English'
 
-    #Subjects
-    if "keywords" in eprint:
-        subjects = eprint['keywords'].split(';')
-        if len(subjects) == 1:
-            subjects = eprint['keywords'].split(',')
-        array = []
-        for s in subjects:
-            array.append({'subject':s.strip()})
-        metadata['subjects']=array
-    if 'option_major' in eprint:
-        if isinstance(eprint['option_major']['item'],list):
-            for item in eprint['option_major']['item']:
-                text = thesis_subjects[item]
+        #Subjects
+        if "keywords" in eprint:
+            subjects = eprint['keywords'].split(';')
+            if len(subjects) == 1:
+                subjects = eprint['keywords'].split(',')
+            array = []
+            for s in subjects:
+                array.append({'subject':s.strip()})
+            metadata['subjects']=array
+        if 'option_major' in eprint:
+            if isinstance(eprint['option_major']['item'],list):
+                for item in eprint['option_major']['item']:
+                    text = thesis_subjects[item]
+                    metadata['subjects'].append({'subject':text})
+            else:
+                text = thesis_subjects[eprint['option_major']['item']]
                 metadata['subjects'].append({'subject':text})
-        else:
-            text = thesis_subjects[eprint['option_major']['item']]
-            metadata['subjects'].append({'subject':text})
-    if 'option_minor' in eprint:
-        if isinstance(eprint['option_minor']['item'],list):
-            for item in eprint['option_minor']['item']:
-                text = thesis_subjects[item]
+        if 'option_minor' in eprint:
+            if isinstance(eprint['option_minor']['item'],list):
+                for item in eprint['option_minor']['item']:
+                    text = thesis_subjects[item]
+                    metadata['subjects'].append({'subject':text})
+            else:
+                text = theis_subjects[eprint['option_minor']['item']]
                 metadata['subjects'].append({'subject':text})
-        else:
-            text = theis_subjects[eprint['option_minor']['item']]
-            metadata['subjects'].append({'subject':text})
     
-    if 'funders' in eprint:
-        array = []
-        if isinstance(eprint['funders']['item'],list):
-            for item in eprint['funders']['item']:
+        if 'funders' in eprint:
+            array = []
+            if isinstance(eprint['funders']['item'],list):
+                for item in eprint['funders']['item']:
+                    award = {}
+                    award['funderName'] = item['agency']
+                    if 'grant_number' in item:
+                        award['awardNumber'] = {'awardNumber':item['grant_number']}
+                    array.append(award)
+            else:
+                item = eprint['funders']['item']
                 award = {}
                 award['funderName'] = item['agency']
                 if 'grant_number' in item:
                     award['awardNumber'] = {'awardNumber':item['grant_number']}
                 array.append(award)
-        else:
-            item = eprint['funders']['item']
-            award = {}
-            award['funderName'] = item['agency']
-            if 'grant_number' in item:
-                award['awardNumber'] = {'awardNumber':item['grant_number']}
-            array.append(award)
-        metadata['fundingReferences'] = array
+            metadata['fundingReferences'] = array
 
-    if 'rights' in eprint:
-        metadata['rightsList'] = [{'rights':eprint['rights']}]
+        if 'rights' in eprint:
+            metadata['rightsList'] = [{'rights':eprint['rights']}]
 
-    if 'related_url' in eprint:
-        array = []
-        if isinstance(eprint['related_url']['item'],list):
-            for item in eprint['related_url']['item']:
+        if 'related_url' in eprint:
+            array = []
+            if isinstance(eprint['related_url']['item'],list):
+                for item in eprint['related_url']['item']:
+                    if 'CaltechDATA' in item['description']:
+                        obj = {}
+                        obj['relationType']='IsSupplementedBy'
+                        obj['relatedIdentifierType']='DOI'
+                        obj['relatedIdentifier']=item['url']
+                        array.append(obj)
+            else:
+                item = eprint['related_url']['item']
                 if 'CaltechDATA' in item['description']:
                     obj = {}
                     obj['relationType']='IsSupplementedBy'
                     obj['relatedIdentifierType']='DOI'
                     obj['relatedIdentifier']=item['url']
                     array.append(obj)
-        else:
-            item = eprint['related_url']['item']
-            if 'CaltechDATA' in item['description']:
-                    obj = {}
-                    obj['relationType']='IsSupplementedBy'
-                    obj['relatedIdentifierType']='DOI'
-                    obj['relatedIdentifier']=item['url']
-                    array.append(obj)
-        metadata['relatedIdentifiers']=array
+            metadata['relatedIdentifiers']=array
 
-    #Dates
-    dates = []
-    dates.append({"date":datetime.date.today().isoformat(),"dateType":"Issued"})
-    if 'gradofc_approval_date' in eprint:
-        dates.append({"date":eprint['gradofc_approval_date'],"dateType":"Accepted"})
-    #These are scanned records, we just list when they were made available
-    else:
-        dates.append({"date":eprint['datestamp'],"dateType":"Available"})
-    metadata['dates'] = dates
+        #Dates
+        dates = []
+        dates.append({"date":datetime.date.today().isoformat(),"dateType":"Issued"})
+        if 'gradofc_approval_date' in eprint:
+            dates.append({"date":eprint['gradofc_approval_date'],"dateType":"Accepted"})
+        #These are scanned records, we just list when they were made available
+        else:
+            dates.append({"date":eprint['datestamp'],"dateType":"Available"})
+        metadata['dates'] = dates
     
-    assert schema40.validate(metadata)
-    #Debugging if this fails
-    #v = schema40.validator.validate(metadata)
-    #errors = sorted(v.iter_errors(instance), key=lambda e: e.path)
-    #for error in errors:
-    #        print(error.message)
+        assert schema40.validate(metadata)
+        #Debugging if this fails
+        #v = schema40.validator.validate(metadata)
+        #errors = sorted(v.iter_errors(instance), key=lambda e: e.path)
+        #for error in errors:
+        #        print(error.message)
 
-    xml = schema40.tostring(metadata)
+        xml = schema40.tostring(metadata)
 
-    outname = f.split('.xml')[0]+'_datacite.xml'
-    outfile = open(outname,'w')
-    outfile.write(xml)
+        outname = f.split('.xml')[0]+'_datacite.xml'
+        outfile = open(outname,'w')
+        outfile.write(xml)