Aufbau eines föderierten Datenpools für soziale Unterstützungsangebote

Zusammenfassung

1. Anlass und Ziel der Sitzung

Die Teilnehmenden kamen aus unterschiedlichen Gründen zusammen, u.a. wegen vorheriger inspirierender Vorträge, persönlicher Kontakte und konkreter Projektinteressen.
Ziel des Treffens war der Austausch zu aktuellen Herausforderungen und Lösungsansätzen im Datenmanagement sozialer Organisationen, insbesondere zur Integration und Nutzung heterogener Datenquellen.

„Ich versuche eine interaktive Landkarte zu bauen von unserem Verband, um einmal darzustellen und zu sehen, okay, wo sind wir denn überhaupt, wo sich unsere Dienststelle was bieten kann und so weiter.“
„Dieses Projekt, was wir hier gerade umsetzen, antwortet auf die Frage, wie finden Menschen in Deutschland das passende Unterstützungsangebot für sich.“

2. Problemstellung: Datenmanagement im Sozialbereich

Es existieren zahlreiche, nicht standardisierte Datensammlungen (z.B. Excel-Listen, unterschiedliche Kategorien, parallele Datenhaltungen).
Datenpflege ist aufwändig, fehleranfällig und führt zu doppelter Arbeit.
Fehlende einheitliche Daten erschweren die Übersicht über Angebote und Standorte.

„Es schwirren ganz viele unterschiedliche Excel-Listen ins Programm. Eine eher mit einer Finanzbrille, Kostenstellen und sonst was, wer wo sitzt und wer wo abrechnet und so weiter. Dann gibt es eine Liste vom Objektmanagement, das da eigene Kategorien, Mietverträge und so was alles drauf macht.“

3. Projektvorstellung: Föderierter Datenpool

Ziel: Aufbau eines föderierten, semantisch standardisierten Datenpools für soziale Unterstützungsangebote in Deutschland.
Motivation: Viele Plattformen und Chatbots benötigen aktuelle, strukturierte Daten zu sozialen Angeboten; bisherige Self-Service-Ansätze führen zu Überlastung und schlechter Datenqualität.
Ansatz: Zusammenführung bestehender Datenpools in gemeinsamer zivilgesellschaftlicher Verantwortung, möglichst wenig manuelle Kuratierung.
Beteiligte Partner: Enge Gespräche mit der Sozialplattform (aus dem Onlinezugangsgesetz-Prozess), Deutscher Caritasverband (Vorstandsbeschluss zur Datenbereitstellung), weitere Fachverbände und Träger.
Entwicklungsstand: Prototyp in Arbeit, Einbindung von Partnerdaten (Caritas, Sozialplattform, AWO), Suche nach Use Cases und institutionellen Betreibern für den späteren Betrieb.
Zeitplan: Entwicklung läuft bis Ende Juli, danach Übergabe an Partner geplant.

„Wir suchen aber gleichzeitig institutionelle Partner. Wir sind gerade am engsten im Gespräch mit der Sozialplattform.“
„Der Deutsche Caritasverband hat zum Beispiel jetzt einen Vorstandsbeschluss, dass die gesamte Adresssammlung eingepflegt wird.“

4. Technische Details und Standardisierung

Einsatz semantischer Technologien (Resource Description Framework, RDF) zur deklarativen Beschreibung und Visualisierung von Datenflüssen und -formaten.
Daten werden aus unterschiedlichen Quellen (APIs, statische Dateien) geladen, bereinigt und auf ein gemeinsames Zielschema gemappt.
Herausforderung: Unterschiedliche Datenfelder und Formate, z.T. unstrukturierte Adressdaten, die extrahiert werden müssen.
Entity Resolution: Entwicklung eines Systems zur Erkennung und Zusammenführung von Duplikaten (Similarity Score, Vergabe eines globalen Identifiers/URI).
Ziel: Entwicklung und Etablierung eines Datenstandards für soziale Angebote, inkl. Validierungstools.
Ergebnis: Gemeinsamer Datensatz als Download/Endpunkt, Rückmeldungen an Datenquellen zur Qualitätsverbesserung.

„Ein sehr neuer Aspekt an diesem System, so wie wir das bauen, ist, dass das auf semantischen Technologien basiert.“
„Das ist der Schritt Mappen von den Formaten, in denen die Daten bei den verschiedenen Quellen vorliegen in ein Endformat und dann passiert aber noch etwas Spannendes und zwar werden die Daten gematcht...“

5. Anwendungsfälle und Übertragbarkeit

Hauptanwendung: Übersicht und Auffindbarkeit sozialer Unterstützungsangebote (z.B. interaktive Karten für Verbände).
Übertragbarkeit: Konzept und Technologie auch für andere Bereiche geeignet, z.B. Förderprogramme (Zusammenführung von Förderdatenbanken des Bundes, der DSSE, EU-Portale, Bayern).
Ähnliche Herausforderungen bei Förderprogrammen: Duplikate, unterschiedliche Felder, fehlende APIs, Bot-Blocking beim Scraping.
Ziel: Bestmögliche Version aus allen Datenquellen, Directory mit bereinigten, gematchten Datensätzen.

„Das Prinzip kann man ja auch, wie Angela schon gesagt hat, auf andere Sachen anwenden... zum Beispiel für Fördermittel, für Förderangebote aus verschiedenen Quellen Programme zu sammeln und dann zusammenzuführen und das gleiche zu machen, wie wir gerade hier gezeigt haben.“

6. Herausforderungen: Datenpflege, Governance und Wirkungsmessung

Datenpflege und Organisationsentwicklung

Datenpflege verbleibt bei den Datenquellen; der Pool erleichtert Abgleich und Qualitätskontrolle.
Diskussion über organisatorische Lösungen: Datenpflege möglichst nah an die eigentlichen Arbeitsprozesse bringen, Reduktion von Mehrfacheinträgen.
Frage nach Ressourcenbedarf für Datenpflege (eigene VZ-Stelle?).

„Der federierte Datenpool kann Datenpflege bei den Datenquellen ein bisschen erleichtern, weil man eben den eigenen Datensatz mit dem von anderen vergleichen kann.“

Governance und Lizenzierung

Governance-Fragen noch offen: Wer betreibt den Pool? Wer darf Daten nutzen?
Aktuell: Nur gemeinwohlorientierte, nicht-kommerzielle Nutzung vorgesehen; Lizenzierung und Quellangabe werden diskutiert.
Endgültige Entscheidungen hängen vom späteren Betreiber ab.

„Das ist eine Governance-Frage, die eigentlich nicht wir zu diesem Zeitpunkt final entscheiden, weil wir ja erstmal nur die Technologie auch nicht zur Verfügung stellen.“

Wirkungsmessung und Best-Practice-Transfer

Bedarf an zentraler Sammlung und Auswertung von Erfolgsdaten und Best-Practices (z.B. Wirkungsmessung sozialer Maßnahmen).
Bisher keine umfassende, neutrale Instanz für Wirkungsmessung; bestehende Projekte (z.B. Finio, Caritas Next) liefern nur punktuell Informationen.
Herausforderungen: Freiwilligkeit, Bias, fehlende externe Evaluation.

„Im Grunde bräuchtest du eine neutrale, externe Stimme, die kannst du über alle Stellen hinweg haben. Das macht, weil sie sich sehr gut auftragen. Gibt es ja zum Teil auch, zum Teil gibt es ja universitäre Begleitungen, Forschungsprojekte für so Förderrichtlinien und so.“

7. Offene Fragen, Diskussion und nächste Schritte

Sammlung weiterer relevanter Datenquellen (z.B. AWO, Volkssolidarität, große Verbände).
Diskussion über Zugang, Lizenzierung und Vertrauen in die Nutzung des Datenpools.
Bedarf an weiteren Use Cases und institutionellen Partnern für Betrieb und Weiterentwicklung.
Keine konkreten Fälligkeitsdaten für nächste Schritte genannt (nicht genannt).

„Insofern Spread the Word ist hier quasi auch Teil von der Aufforderung.“
„Wenn ihr dann an der Schwelle seid, dass ihr sagt, wir haben jetzt so einen ausreichend großen Pool und da kann sich dann jeder melden, dass er Interesse daran hat oder wie ist das?“

Zentrale Erkenntnisse:

Der Aufbau eines föderierten, standardisierten Datenpools für soziale Angebote ist technisch und organisatorisch anspruchsvoll, aber essenziell für bessere Auffindbarkeit und Qualität sozialer Dienstleistungen.
Semantische Technologien ermöglichen flexible, deklarative Datenintegration und Standardisierung.
Governance, Lizenzierung und nachhaltige Datenpflege sind zentrale offene Fragen.
Das Konzept ist auf weitere Bereiche (z.B. Förderprogramme) übertragbar.
Wirkungsmessung und Best-Practice-Transfer bleiben eine Herausforderung.

Zitate und O-Töne wurden gezielt zur Illustration zentraler Punkte eingebunden.