Online-Seminar PIDs für Software

PIDs für Software können wissenschaftliche Arbeitsprozesse transparenter, vernetzter und effizienter machen (Zusammenfassung)

Mit der fortschreitenden Digitalisierung in Forschung und Lehre steigt die Zahl der Softwarelösungen an wissenschaftlichen Einrichtungen deutlich. Die zuverlässige Bereitstellung und Nutzung dieser Software ist essenziell, um Forschungsergebnisse nachvollziehbar zu machen und ihre Weiterverwendung zu ermöglichen. Die Anerkennung von Software als wissenschaftliches Produkt ist von entscheidender Bedeutung, um den Impact für Forschung und Innovation sichtbar zu machen und ihre nachhaltige Nutzung sowie Zitation zu fördern. Dabei spielen Persistente Identifikatoren (PIDs) eine zentrale Rolle: Sie gewährleisten eine eindeutige Zuordnung und erleichtern das Auffinden, Zugänglichmachen, die Interoperabilität sowie die Wiederverwendbarkeit von Software im Sinne der FAIR Prinzipien.

Das Projekt "PID Network Deutschland" veranstaltete am 30. Juni 2025 das Online-Seminar "PIDs für Software". Dabei beleuchteten wir verschiedene Aspekte hinsichtlich der Dokumentation und Nutzung von Software. Neben einer Einführung in nationale und internationale Initiativen zum Umgang mit Forschungssoftware, ging es auch um praktische Herausforderungen und Lösungsansätze gehen.

Zu Beginn der Veranstaltung gab es eine Einführung in das Thema „Forschungssoftware” und die Bedeutung von PIDs im Kontext von Software. Alexander Struck von der HU Berlin ordnete die Relevanz für die nationale und internationale Forschungslandschaft ein.

Das Publikationssystem HERMES, vorgestellt durch Stephan Druskat (DLR), wurde für Forschungssoftware entwickelt , um die Veröffentlichung, Dokumentation und Sichtbarkeit von wissenschaftlicher Software zu erleichtern. Es bietet Forschenden eine Plattform, um ihre Softwareprojekte systematisch darzustellen, mit Metadaten zu versehen und dauerhaft zugänglich zu machen. Dabei unterstützt das System auch die Integration von PIDs, um die Software eindeutig zu referenzieren und ihre Zitierfähigkeit zu verbessern.

Morane Gruenpeter (Software Heritage) stellte den Software Hash IDentifier (SWHIDs) vor, der eine dauerhafte und unveränderliche Referenz über den gesamten Lebenszyklus einer Software ermöglicht. So können Software-Versionen, Quellcode und Entwicklungsprozesse zuverlässig miteinander verknüpft werden, um die Nachvollziehbarkeit sowie Reproduzierbarkeit wissenschaftlicher Arbeiten zu sichern. Darüber hinaus beleuchtete Paul Vierkant die Perspektiven aus Sicht des DataProviders DataCite und Esther Scheven (DNB) stellte vor, in wie weit, Softwareprodukte in der Gemeinsamen Normdatei (GND) abgebildet werden können.

In allen Beiträgen wurde deutlich, dass eine Referenzierung von Software mittels PIDs wissenschaftliche Arbeitsprozesse transparenter, vernetzter und effizienter gestalten kann.

Gruppenaustausch: Bedürfnisse und Herausforderungen der Community

Mehr als 70 % der Teilnehmer gaben an, dass sie Richtlinien oder Vorgaben für die Verwendung von Forschungssoftware als sehr hilfreich empfinden. n=38 — Ergebnisse der Zoom Umfrage

Während der Veranstaltung gab es die Möglichkeit, sich in kleineren Gruppen auszutauschen. In einem interaktiven Teil wurden drei Fragen formuliert, die die Teilnehmer beantworten und diskutieren sollten. Im Folgenden finden Sie eine kurze Zusammenfassung.

Forschungssoftware steht vor erheblichen Hürden in Bezug auf Reproduzierbarkeit, langfristige Nutzbarkeit und Anerkennung. Zu den wichtigsten Herausforderungen gehören:

Reife und Richtlinien: Software wird oft schnell für bestimmte Projekte entwickelt, mit begrenzter Dokumentation, Standards und einem Mangel an institutionellen Anreizen für eine ordnungsgemäße Zitierung oder Veröffentlichung.
Veröffentlichung und Weitergabe: Uneinheitliche Arbeitsabläufe, fehlende Identifikatoren und Metadaten sowie Abhängigkeitsprobleme erschweren die Veröffentlichung und Wiederverwendung von Software.
Ressourcenbeschränkungen: Begrenzte Zeit und Ressourcen behindern die Umsetzung guter Softwareentwicklungs- und Veröffentlichungspraktiken.
Technische Hindernisse: Mangelnde Fachkenntnisse, Kompatibilitätsprobleme und Schwierigkeiten beim Hosten/Teilen von Code (z. B. bei der Verwendung von Plattformen wie GitHub) tragen zu den Problemen bei.
Daten und Dokumentation: Entscheidungen über die Integration von Datensätzen und ein ständiger Mangel an Zeit für eine gründliche Dokumentation erschweren die Nutzbarkeit und Reproduzierbarkeit zusätzlich.

Die Workshop-Teilnehmer identifizierten mehrere Herausforderungen bei der Einführung von PIDs für Forschungssoftware. Die wichtigsten Bedenken betreffen die Integration in Arbeitsabläufe, die Verwaltung von Metadaten und die langfristige Zugänglichkeit.

Arbeitsabläufe und Tools: Die Integration von PIDs in bestehende Arbeitsabläufe ist komplex, insbesondere bei manuellen Veröffentlichungsprozessen. Die Teilnehmer betonten den Bedarf an praktischen Tools, die auf spezifische Anforderungen zugeschnitten sind.
Metadatensynchronisation: Bei der Synchronisation von PIDs mit umfassenden Metadaten besteht ein „Henne-Ei-Problem“, das eine sorgfältige Planung erfordert, wer diese erstellt und verwaltet. Die Wahl des Metadatenformats wirkt sich ebenfalls auf die Benutzerfreundlichkeit aus.
Versionskontrolle und DOIs: Bestehende Versionskontrollsysteme (wie GitLab) bieten stabile URLs, wodurch der wahrgenommene Nutzen zusätzlicher PID-Mechanismen gemindert wird. Entscheidungen zwischen versionsspezifischen und aktuellen DOIs müssen sorgfältig abgewogen werden.
Zugänglichkeit und Eigentumsrechte: Die Gewährleistung der langfristigen Zugänglichkeit von Software ist ein wichtiges Anliegen, insbesondere wenn Entwickler und Herausgeber unterschiedlich sind oder die Software in größere Publikationen eingebettet ist.
Aufkommende Probleme: Die Teilnehmer äußerten Bedenken hinsichtlich der PID-Referenzierung für KI-generierte Software aufgrund von Fragen zum Urheberrecht und zur Bewertung.

Die Teilnehmer identifizierten eine umfassende Reihe von Dokumentationselementen, die für die Gewährleistung der Wiederverwendbarkeit von Software entscheidend sind. Zu den wichtigsten Bereichen gehören:

Lizenzierung und Einschränkungen: Klare Lizenzinformationen (in Anlehnung an die Standards von reuse.software) und ein definierter Umfang, der beschreibt, was die Software leisten kann und was nicht.
Technische Anforderungen: Detaillierte Spezifikationen für den Software-Stack, Betriebssysteme, Abhängigkeiten (mit Versionsnummern) und erforderliche Ressourcen.
Verwendung und Ausführung: Umfassende Anleitungen für die Installation, Ausführung (einschließlich Anweisungen zum Erstellen/Kompilieren) und minimale Anwendungsbeispiele mit Testdaten.
Kontext und Zweck: Eine klare Beschreibung des Anwendungsbereichs und Zwecks der Software, der Probleme, die sie löst, und ihrer FAIR-Indikatoren.
Beiträge und Support: Informationen darüber, wie man Beiträge leisten kann, Mechanismen für Feedback und Kontaktinformationen für Autoren/Mitwirkende.
Abhängigkeiten und Zitierung: Klare Zitierangaben und Details zu allen Software-Abhängigkeiten.

Angesichts der identifizierten Herausforderungen in Bezug auf Reproduzierbarkeit, Benutzerfreundlichkeit und langfristige Tragfähigkeit plädieren die Teilnehmer für mehr nutzerorientierte Lösungen und Verbesserungen, um den Wert der Einführung von PIDs in bestehende Forschungssoftware-Workflows deutlich zu machen. Sie betonten, dass eine gründliche Dokumentation – die für Nutzer, Förderer und Mitwirkende unerlässlich ist – ein Eckpfeiler dieser Bemühungen ist, um sicherzustellen, dass Software über einen längeren Zeitraum hinweg wiederverwendbar und wirkungsvoll bleibt. Am Ende der Veranstaltung wurden in einer Zoom-Umfrage zusätzliche Fragen formuliert, die dem Projekt PID Network Germany helfen sollen, die Anforderungen und Bedingungen für die Verwendung von PIDs für Software erneut strukturiert zu erfassen. Diese Ergebnisse unterstreichen auch die Erkenntnisse aus der Gruppenarbeit. Mehr als 70 % der Teilnehmer gaben an, dass sie Richtlinien oder Vorgaben für die Verwendung von Forschungssoftware als sehr hilfreich empfinden. Darüber hinaus waren sich diese Befragten einig, dass verbindliche Anforderungen (z. B. von Drittförderern) die Verwendung und Implementierung von PIDs unterstützen könnten. In Übereinstimmung mit früheren Diskussionen nannten die meisten Teilnehmer mangelndes Bewusstsein oder fehlende Schulungen sowie die Herausforderung, PIDs in bestehende Arbeitsabläufe zu integrieren, als größte Hürden. Gleichzeitig wird darauf hingewiesen, dass eine nachhaltige Finanzierung für die Implementierung und Pflege von PIDs sichergestellt werden muss.

Wir möchten uns bei allen Teilnehmern und Referenten für den Austausch bedanken.

Programm

Zeit	Programmpunkt	Präsentation	Sprecherin
13:00	Begrüßung Vorstellung des Projektes	Begleitfolien	Steffi Genderjahn, Helmholtz Open Science Office
13:10	Research Software and PIDs for Discovery	https://doi.org/10.5281/zenodo.15773857	Alexander Struck, HU Berlin
13:25	Automating the creation of persistently identifiable software publications with HERMES	https://doi.org/10.5281/zenodo.15646509	Stephan Druskat, DLR
13:40	SoftWare Hash IDentifier (SWHID) and use cases	https://doi.org/10.5281/zenodo.15750889	Morane Gruenpeter, Software Heritage
13:55	Interaktiver Teil	Miroboard (Zusammenfassung siehe Text)
14:20	Pause
14:30	Software in The Integrated Authority File (GND)	https://doi.org/10.5281/zenodo.15828850	Esther Scheven, Deutsche Nationalbibliothek (DNB)
14:45	Software publications from a DataCite perspective	https://doi.org/10.5281/zenodo.15772977	Paul Vierkant, DataCite
ab 15:00	Offen für Diskussion	Umfrageergebnisse

Veranstaltungs-DOI: https://doi.org/10.25798/d4gz-gc97