Vertrauen schaffen

Code 1

Anerkennung verschiedener Faktoren, welche den Grad der Automatisierung gebieten

Automatisierungstechnologien sollen so eingesetzt werden, dass sie gesellschaftlich verantwortungsvoll und kontextsensibel wirken. Dies bedeutet, bei Entscheidungen über den Reifegrad sowohl technische Faktoren (z. B. Wiederholungsgefahr rechtsverletzender Inhalte, Skalierbarkeit) als auch soziokulturelle Aspekte wie gesellschaftliche Machtverhältnisse, Minderheitenschutz, politische Kontexte oder die Gefahr staatlicher Instrumentalisierung zu berücksichtigen.

Dabei gilt es insbesondere,

den Grad der Automatisierung (voll-, teilautomatisiert oder rein menschlich überprüft) klar unter Rückgriff auf die oben genannten Faktoren zu definieren.
Systeme so zu konzipieren, dass sie möglichst unabhängig von spezifischen Nutzer*innenprofilen agieren. Automatisierte Entscheidungen sollten sensible Nutzer*innenmerkmale nur im Maße minimaler Notwendigkeit heranziehen, um Verzerrungen (Bias) zu minimieren.
kulturelle und gesellschaftliche Rahmenbedingungen differenziert zu analysieren (z. B. Umgang mit LGBTIQA+ -Inhalten in repressiven Kontexten, sprachliche Besonderheiten, historisch sensible Sachverhalte),
Risiken für marginalisierte Gruppen bei automatisierten Entscheidungen gezielt zu minimieren,
sowohl False Positives (Overblocking legitimer Inhalte) als auch False Negatives (Nicht-Erkennen schädlicher Inhalte) zu berücksichtigen,
gesellschaftliche Akzeptanz nicht als einheitliche Größe zu verstehen, sondern als pluralen Aushandlungsprozess unter Einbezug betroffener Gruppen.

IMPLEMENTIERUNG

✓ Ethische Leitlinien

für die Bewertung und den Einsatz automatisierter Systeme, die explizit Diversität, Kontextsensibilität und Gefahren asymmetrischer Machtverhältnisse adressieren. Dies umfasst die Einführung eines Human-Oversight-Panel innerhalb der Organisation, das regelmäßig evaluiert, ob bestehende Automatisierungslösungen pluralistische Meinungsfreiheit wahren und Diskriminierung vermeiden.

✓ Einbindung betroffener Gruppen durch partizipativen Feedbackprozesse

(z. B. durch partizipative Konsultationen betroffener Communities wie queeren Gruppen, Sprachminderheiten etc.) zur Einschätzung von gesellschaftlicher Wirkung und Akzeptanz automatisierter Systeme.

✓ Aufbau transparenter Verfahren zur Evaluierung und Auditierung

automatisierter Systeme im Hinblick auf kulturelle, politische und gesellschaftliche Implikationen, inkl. Entwicklung dynamischer Modelle zur Risikoabwägung, die sowohl die technische Reife als auch mögliche gesellschaftliche Konfliktlagen (z. B. in autoritären Staaten) einbeziehen.

✓ Einführung menschlicher Kontrollintervalle resp. Eingriffspunkte,

die verpflichtend einzuplanen sind – sowohl zur Qualitätssicherung als auch zur Fehlerkorrektur.

✓ Prüfung von Geofencing-Mechanismen,

wo nötig, aber unter besonderer Beachtung der Gefahr von Geoblocking im Zuge staatlicher Repression.

✓ Festlegung auf Benchmarks

(z. B. Rate von Overblocking/Underblocking nach Nutzer*innenkategorie, false positive/negative bei Inhalten marginalisierter Gruppen) in Abstimmung mit dem Ethik-Board sowie externen Institutionen (Forschung, zivilgesellschaftliche Organisationen) zur periodischen Erfolgskontrolle hinsichtlich festgestellter Defizite.

Code 2

Verantwortungsbewusste Delegation

Im Sinne der Minimierung von Fehlentscheidungen und zur Vermeidung einer unangemessenen oder übermäßigen Automatisierung sollte die Delegation von Aufgaben an automatisierte Systeme nur dann erfolgen, wenn diese technisch ausgereift, transparent überprüfbar und gesellschaftlich verantwortbar sind–insbesondere mit Blick auf kritische, ethisch sensible oder kontextabhängige Entscheidungen. Dabei gilt: Je höher der Grad der Delegation an automatisierte Systeme, desto größer die Verantwortung, diesen durch robuste Kontroll-, Rückfall- und Feedbackmechanismen abzusichern. Ein hoher Automatisierungsgrad bedeutet stets auch eine hohe Delegation von Entscheidungsverantwortung – diese Korrelation muss reflektiert und begrenzt werden, insbesondere bei potenziell strafrechtlich relevanten Inhalten, etwa in Fällen von Gewaltandrohung, Amoklauf-Ankündigungen oder Aufrufen zu Hass und Hetze. In solchen Fällen ist ein automatischer Eingriff allein weder angemessen noch verantwortbar – eine zusätzliche menschliche Bewertung bleibt Pflicht.

Technische Reife bezeichnet den Zustand, in dem ein System:

in unabhängigen Audits nachgewiesen konsistent akkurate Entscheidungen trifft (z. B. gemessen an sehr geringen false positive/negative Rates, Fairnessmetriken),
auf aktuellem Stand sicherheitsgeprüft ist (z. B. durch Adversarial Testing),
kontinuierlich überwacht und verbessert werden kann,
mit klaren Rückfall-/Eskalationsmechanismen für Sonderfälle ausgestattet ist
und gegen ein Trainingsset aus kuratierten, menschlich überprüften Entscheidungen validiert wurde – idealerweise mit repräsentativen, divers annotierten Inhalten, um Verzerrungen zu minimieren.

Kritische Entscheidungsprozesse sind solche, die

ein Risiko für Grundrechte beinhalten (z. B. Meinungsfreiheit, Datenschutz, Diskriminierung),
irreversible Folgen für Individuen oder Gruppen haben könnten,
in gesellschaftlich stark normierten oder konfliktbehafteten Kontexten erfolgen
oder strafrechtlich relevante Inhalte betreffen, bei denen Fehlentscheidungen gravierende reale Folgen haben können (z. B. öffentliche Sicherheit, Prävention von Gewalt oder Hetze).

IMPLEMENTIERUNG

✓ Transparente Schwellenwerte und Kontextdefinitionen:

Interne, regelmäßig überprüfte Kriterienkataloge definieren, wann eine Entscheidung als kritisch gilt und wann menschliches Eingreifen zwingend notwendig ist.
- Unterstützung einer effizienten, kontextsensibleren Delegation an geeignete Moderationsteams durch sprachbasierte Systeme (z.B. Large Language Models), beschränkt auf kritische Fallkonstellationen.
- Plus: Aufbau eines öffentlich einsehbaren Entscheidungsregisters für automatisierte Eingriffe mit nachvollziehbaren Eingriffsschwellen.

✓ Trainingsbasierte Systementwicklung:

Implementierung eines qualitativ geprüften, annotierten Trainingsdatensatzes als Referenz für automatisierte Systeme. Dieser Datensatz sollte auf nachvollziehbaren, menschlich getroffenen Moderationsentscheidungen basieren und regelmäßig aktualisiert werden; Berücksichtigung sprachlicher, medialer und kultureller Vielfalt im Trainingsmaterial.

✓ Human Oversight als Pflichtkomponente:

Stichprobenartige Überprüfung der Delegationsentscheidungen.
Zeitsensitive Einbettung von Moderator*innen-Feedback mit Möglichkeit zur Gewichtung (s. auch Punkt 9).
Implementierung eines Priorisierungssystems für Beiträge mit möglicher Strafrechtsrelevanz, bei dem automatisierte Systeme Inhalte markieren, aber keine abschließenden Entscheidungen ohne menschliche Prüfung treffen dürfen.
Beteiligung zivilgesellschaftlicher Akteur*innen bei der systemischen Weiterentwicklung.

✓ De-Risking durch Monitoring

Technologiefolgenabschätzung als kontinuierlicher Prozess zur Bewertung langfristiger Effekte automatisierter Systeme.
- Einsatz unabhängiger externer Audits zur technischen Eignungsprüfung.

✓ Entwicklung quantitativer wie qualitativer Indikatoren

zur Bewertung der Automatisierungsfolgen (Accuracy, Bias, User-Feedback, Risikoindizes).

Code 3

Notfallmechanismen für menschliches Eingreifen

Stärkung menschlicher Kontrolle in sicherheitskritischen, besonders komplexen oder grundrechtegefährdenden Situationen. Automatisierte Systeme dürfen nicht autonom fortfahren, wenn Indikatoren für signifikante Risiken für demokratische Prozesse, öffentliche Sicherheit, Grundrechte oder Nutzer*innenschutz bestehen. Automatisierung muss jederzeit unterbrechbar sein – durch klar definierte Eingriffsverfahren, zuständige Personen und transparente Dokumentation. Ziel ist eine risikoadäquate, ethisch vertretbare Mensch-Maschine-Interaktion, die auf präventive und reaktive Notfallmechanismen setzt.

Ein rechtzeitiges Eingreifen ist insbesondere dann geboten, wenn

sicherheitskritische Lagen auftreten (z. B. Bedrohung der physischen oder digitalen Sicherheit von Nutzer*innen),
besonders komplexe Situationen vorliegen, in denen die technische Modelllogik mit realweltlicher Kontextualisierung kollidiert (z. B. durch mehrdeutige Sprache, kulturelle Konnotationen, neuartige/präzedenzlose Phänomene),
systemische Risiken i.S.d. Gesetzes über digitale Dienste oder der Verordnung über künstliche Intelligenz vorliegen (z. B. Gefahren für demokratische Prozesse, gezielte Desinformation, grundrechtsrelevante Diskriminierung),
Erhebliche Auswirkungen auf Einzelpersonen oder Gruppen zu erwarten sind – insbesondere bei vulnerablen oder marginalisierten Nutzer*innengruppen.

IMPLEMENTIERUNG

✓ Einführung von „Override“-Funktionen

(z. B. Stop-Button, Pausierungsmechanismus), die menschliche Kontrolle jederzeit ermöglichen, ohne Sicherheit oder Systemleistung zu gefährden. Ein System sollte hierbei in der Lage sein, proaktiv und zeitsensitiv auf mögliche Notfälle hinzuweisen.

✓ Aufbau eines mehrstufigen Eskalationsverfahrens, das regelt:

Wann Eingriffe zulässig oder geboten sind,
Wer diese vornimmt (z. B. Safety-Teams, Panel-Instanzen),
Wie Entscheidungen dokumentiert, rücknehmbar und überprüfbar bleiben.

✓ Grundlage:

Entwicklung einer Risiko-Matrix, die typische Interventionsszenarien kategorisiert und dynamisch erweitert. Diese Matrix soll keine statische Liste darstellen, sondern dynamisch anpassbar und durch zivilgesellschaftliche Expertise weiterentwickelbar sein. Sie soll darüber hinaus nicht als „Check-Box“-Lösung genutzt werden dürfen, sondern in eine risikoadaptive Bewertung eingebettet sein. Konkret soll sie Beispiele, Kontexte und Schweregrade (z. B. Impact-Level, Nutzer*innengruppe, Systemreaktion) in einer nachvollziehbaren Struktur abbilden, ohne neue oder unerwartete Szenarien auszuschließen.
Einrichtung eines Rücknahmeverfahrens für Interventionsentscheidungen, mit externer Kontrollinstanz (Report & Evaluation).
Aufbau eines Trainingsprogramms für alle mit Moderation oder Systemaufsicht befassten Mitarbeitenden zur sicheren Anwendung der Eingriffsmechanismen (siehe Punkt 8).
Einbindung von zivilgesellschaftlichen Organisationen, Forschung, Behörden, betroffenen Gruppen und Fachleuten (z. B. aus Diskriminierungsschutz, Medienethik, IT-Sicherheit) in die kontinuierliche Definition, Bewertung und Weiterentwicklung von Risikokategorien und Notfallprozeduren.
Aufbau von Feedbackschleifen zum mehrstufigen Eskalationsverfahren zwischen Community, Moderation und Systemdesign, um langfristige Risiken frühzeitig zu erkennen und zu adressieren.

Code 4

Unterbrechung der automatisierten Moderation bei Komplexitätsindikation

Sicherstellung, dass automatisierte Moderationsprozesse dann unterbrechen, wenn Inhalte eine hohe kulturelle, ethische oder rechtliche Komplexität aufweisen. In diesen Fällen soll ein menschliches Eingreifen (dynamische Eskalation zur menschlichen Prüfung) zwingend vorgesehen sein, um Grundrechte, kulturelle Kontexte und mehrdeutige Interpretationen adäquat zu berücksichtigen.

Komplexitätsindikatoren sind Merkmale, die darauf hinweisen, dass ein Inhalt nicht automatisiert bewertbar ist. Dazu zählen u. a.:

Mehrdeutigkeit sprachlicher Ausdrücke (Ironie, Sarkasmus, Kontextabhängigkeit, regionale Redewendungen),
Kulturelle und religiöse Symbolik, die je nach Region oder Gruppe unterschiedlich interpretiert wird,
Themen mit starker Betroffenheit marginalisierter Gruppen (z. B. queere Identitäten, rassifizierte Perspektiven, koloniale oder antisemitische Sprachelemente),
Überschneidungen mit sensiblen politischen Kontexten (z. B. Wahlen, Protest, Dissens, autoritär kontrollierte Narrative/Propaganda, Krieg).

Die Liste der Komplexitätsindikatoren ist öffentlich, dynamisch und wird regelmäßig unter Hinzuziehung interdisziplinärer Fachgruppen (insb. Informatik, Recht, Sozialwissenschaft) aktualisiert. Es ist ausdrücklich vorgesehen, dass auch Nutzer*innen, zivilgesellschaftliche Organisationen und Moderationsteams neue Indikatoren vorschlagen können. Ein definiertes Prüfverfahren stellt sicher, dass neue Vorschläge partizipativ beurteilt und dokumentiert werden.

Hinweis: Diese Indikatoren lösen eine risikobasierte, abgestufte Eskalation aus, die automatisierte Voranalysen mit menschlicher Prüfung kombiniert.

IMPLEMENTIERUNG

✓ Entwicklung einer automatisierten Früherkennung,

die Inhalte anhand der Komplexitätsindikatoren zur menschlichen Entscheidung eskalieren und ggf. priorisieren. Diese Früherkennung sollte dabei vergleichbaren Audit-Anforderungen unterliegen, wie Content Governance–Systeme insgesamt (s. Punkt 2.). Inhalte, die unter mehrere Indikatoren fallen, sind priorisiert und mit erhöhter Prüftiefe zu behandeln.

✓ Komplexitätsindikatoren

Möglichkeit für Nutzer*innen, bei Content-Meldungen selbst explizit auf Komplexitätsindikatoren hinzuweisen.

✓ Hinreichende Schulung

der Moderator*innen in menschenrechtlicher, kultureller und kontextueller Sensibilität, um Eskalationsfälle adäquat einschätzen und behandeln zu können. Damit einher geht auch die Definition von Personalressourcen und Mindeststandards für die Ausstattung mit qualifizierten Moderator*innen, u. a. in Bezug auf Sprachen, kulturelles Wissen, psychologische Resilienz und Rechtskenntnis (siehe Punkt 8).

Code 5

Menschengerechte Interfacegestaltung & psychologische Unterstützung

Alle im Kontext der Content Governance verwendeten Systeme und Interfaces werden menschenzentriert entwickelt. Die Gestaltung von Systemen, deren techno-physischen Schnittstellen, und digitalen Benutzeroberflächen soll so erfolgen, dass sie physische und psychische Belastungen minimieren und natürliche Interaktionsformen für Moderator*innen ermöglichen – insbesondere in anspruchsvollen, stark repetitiven oder potenziell belastenden und verstörenden Kontexten. Psychische Gesundheit ist dabei keine individuelle Aufgabe, sondern Bestandteil der Arbeitsgestaltung und Fürsorgepflicht des Arbeitgebers.

Wer sind Moderator*innen (erweitertes Verständnis)?

Interne Teams & ausgelagerte Dienstleister*innen
Sog. High-Level Expert Groups
Systemadministrator*innen
Ggf. Community-Mitglieder, wenn sie Moderationsfunktionen übernehmen (z. B. über Plattform-Meldesysteme)
Trusted Flaggers (i.S.d. Art. 22 GdD)

Was bedeutet „natürliche Interaktion“?

Transparent & verständlich
Barrierearm
Psychisch entlastend (z. B. Pausenoptionen, Preview-Blocker für belastende Inhalte)
Intuitiv

IMPLEMENTIERUNG

✓ Regelmäßige Usability-Tests

mit verschiedenen Nutzer*innengruppen (z. B. auf Basis von HCI-Standards).

✓ Bewertung nach User-Centered Design-Prinzipien, etwa:

Verständlichkeit,
Kontrollierbarkeit,
Fehlervermeidung,
emotionale Resilienzförderung.

✓ Traumasensibles Design für belastende Inhalte, z. B.:

unscharfe Bildvorschau,
gestaffelte Vorschau/Anzeige sensibler Inhalte,
optisch-neutrale Kategorisierung von Gewaltmaterial,
automatisierte Vermeidung unnötiger Wiederholungen (z. B. durch systemgestützte Fallfilterung),
Möglichkeit zum sofortigen Abbruch der Vorschau,
Grayscaling.

✓ Einführung von Reflexions-, Rückmelde- und Entlastungsstrukturen

für Moderator*innen im Umgang mit hochsensiblen Fällen, insb. durch in angemessenem Ausmaß regelmäßige sowie akute, professionelle psychologische Unterstützungsangebote. Die Wahrnehmung derartiger Unterstützung darf dabei nicht durch zu erfüllende Tagespensen eingeschränkt werden.

Code 6

Ausgleich von Datenschautz und Kontextinformation

Automatisierte und semi-automatisierte Content-Moderation erfordern eine sorgfältige Balance zwischen dem Schutz personenbezogener Daten und der Berücksichtigung kontextueller Informationen, die für faire, nachvollziehbare und diskriminierungsfreie Entscheidungen notwendig sind. Sämtliche Datenverarbeitungsschritte – einschließlich der Analyse von Beitragsinhalten, Metadaten, Nutzungsumfeldern und gegebenenfalls personenbezogenen Kontoinformationen – werden dabei an den Grundsätzen der Datensparsamkeit, Zweckbindung und Kontextgerechtigkeit ausgerichtet.

Kontextgerechtigkeit bedeutet in diesem Zusammenhang die verhältnismäßige Abwägung der betroffenen Grundrechte (etwa Meinungsfreiheit, Datenschutz, Schutz vor Diskriminierung oder Schutz vor Gewalt) unter Berücksichtigung des sozialen, kommunikativen und technischen Umfelds eines Beitrags. Die Erhebung und Auswertung sogenannter Kontextdaten, wie z. B. Sichtbarkeitseinstellungen, Publikumsadressierung, Kommunikationsraum (öffentlich, halböffentlich, privat), zeitlicher Verlauf, Interaktionsmuster oder Plattformarchitektur darf nur erfolgen, wenn diese für die Bewertung eines Inhalts unerlässlich sind.

Zentrale Prinzipien:

Datenschutz gemäß DSGVO (vgl. Artt. 1, 5 DSGVO): Schutz natürlicher Personen in ihren Rechten und Freiheiten
Verhältnismäßigkeit und Rechteabwägung nach GdD: Entscheidungen über die Moderation müssen dem Maß der potenziellen Grundrechtsbeeinträchtigung entsprechen (Art. 14 GdD)
Berücksichtigung der Privatsphäre-Einstellungen der Nutzer*innen (z. B. private Stories, geschlossene Gruppen, geschützte Profile vs. öffentliche Inhalte) und Priorisierung nach Reichweite

IMPLEMENTIERUNG

✓ Entwicklung kontextewahrender Analyseverfahren,

z. B. durch semantische Kontexterkennung, hierarchische Diskursanalysen oder Raum-Zeit-Einordnungen / Kontextabgrenzung; ohne den Einbezug personenbezogener Daten; mit Fokus auf den für die Moderationsentscheidung relevanten Kontext.

✓ Durchführung standardisierter Datenschutz-Folgenabschätzungen

bei allen Systemen, die automatisierte oder semi-automatisierte Entscheidungen über Inhalte treffen; mit besonderem Fokus auf Risiken für marginalisierte Gruppen.

✓ Definition und Gewichtung notwendiger Kontextdaten

je nach Inhaltsart und Kommunikationsform (z. B. bei Ironie, Aktivismus, Gewaltschutzkontexten); dazu zählen u. a. Sichtbarkeitseinstellungen, Zielgruppenadressierung, Postingzeitpunkt, technische Verbreitungsmechanismen.

✓ Gestufte Rechteabwägung im Einklang mit dem GdD:

Systeme müssen erkennen, in welchen Fällen eine automatisierte Entscheidung eine erhebliche Auswirkung auf Meinungsfreiheit oder Privatsphäre haben kann, und eine menschliche Überprüfung sicherstellen.

✓ Dynamische Kontexterkennung:

Systeme müssen erkennen, ob Inhalte aus privaten, temporären oder geschützten Kommunikationsräumen stammen und ihre Analyse entsprechend anpassen.

Code 7

Fairness und Diskriminierungfreiheit

(Teil-)automatisierte Systeme, insbesondere im Bereich Moderation und Empfehlung, sollten so gestaltet und reguliert werden, dass sie strukturelle Ausschlüsse, algorithmische Verzerrungen (Bias) sowie unbeabsichtigte Verstärkungsmechanismen frühzeitig erkennen und wirksam begrenzen. Fairness wird dabei als Gleichberechtigung im Zugang, menschenrechtlich fundierte Nichtdiskriminierung sowie als Ermöglichung gleichberechtigter Partizipation verstanden.

Content-Moderation-Systeme (CMS) stehen dabei in besonderer Verantwortung: Sie müssen nicht nur rechtswidrige Inhalte erkennen und entfernen, sondern auch sicherstellen, dass ihre Wirkweise nicht indirekt marginalisierte Gruppen benachteiligt; etwa durch höhere Fehlerraten bei der Erkennung von Dialekten, nicht-dominanten Sprachformen oder durch ungleiches Entfernen legaler Inhalte. Diese Systeme müssen gemäß den Anforderungen des Gesetzes über digitale Dienste (GdD) transparent, rechenschaftspflichtig und diskriminierungsfrei ausgestaltet sein. Außerdem sind Plattformen dazu verpflichtet, klare Regeln, transparente Prozesse und effektive Beschwerdemechanismen bereitzustellen.

Recommender-Systeme (RS) (algorithmische Empfehlungssysteme zur Sortierung, Priorisierung oder Sichtbarkeitssteuerung von Inhalten) spielen eine zentrale Rolle für die Content-Governance. Sie bestimmen maßgeblich, welche Inhalte Nutzer*innen sehen und welche nicht. Die zugrunde liegenden Verstärkungslogiken orientieren sich meist an Interaktionsraten wie Likes, Shares oder Watchtime. Diese Metriken können jedoch diskriminierende Nebenwirkungen entfalten, wenn sie etwa Inhalte benachteiligen, die weniger emotionalisiert sind oder von Gruppen stammen, deren Beiträge seltener Feedback erhalten – etwa Menschen mit Be_hinderung, FLINTA/LGBTQIA+, BIPoC oder nicht-dominanten Sprachgemeinschaften.

Inhalte sollten deshalb nicht allein danach priorisiert werden, wie stark sie polarisieren oder emotionalisieren. Ziel ist eine Gestaltung der Empfehlungsalgorithmen, die problematische Dynamiken wie toxische Diskurse, Hatespeech oder Desinformation weniger stark pusht und stattdessen vielfältige, kontextualisierte Inhalte nicht strukturell benachteiligt. Dies bedeutet, Empfehlungsalgorithmen so zu gestalten, dass sie demokratische Teilhabe, Meinungsvielfalt und faire Zugänge in einem ungleichen digitalen Raum ermöglichen.

Kontextualisierte Gleichbehandlung heißt in diesem Zusammenhang nicht, alle Inhalte oder Nutzer*innen identisch zu behandeln, sondern soziale Ungleichheiten, strukturelle Diskriminierungen und bestehende Zugangsbeschränkungen systemisch mitzudenken. Eine faire algorithmische Gewichtung erfordert eine adaptive Systemgestaltung, die Verzerrungen und Verstärkungsschleifen offenlegt, diskriminierende Effekte überprüfbar macht und partizipative Korrekturen ermöglicht.

IMPLEMENTIERUNG

✓ Meaningful Stakeholder Engagement:

Alle maßgeblichen Audit- und Entwicklungsschritte erfolgen unter Einbeziehung relevanter externer Perspektiven, insbesondere von zivilgesellschaftlichen Organisationen, betroffenen Communities und interdisziplinären Fachpersonen mit intersektionaler, menschenrechtsbasierter Expertise.

✓ Regelmäßige, unabhängige Bias-Audits,

durchgeführt durch interdisziplinäre Gremien (s.o.), die diskriminierungskritische Perspektiven integrieren. Nach jeder Analyse erfolgen gezielte Systemüberarbeitungen.

✓ Transparente Analyse der Trainings- und Modellierungsdaten

auf Repräsentationslücken, historische Verzerrungen und unbeabsichtigte Ausschlüsse.

✓ Einsatz und Veröffentlichung multipler Fairnessmetriken, etwa:

Fehlklassifikationsraten nach Gruppen, Sichtbarkeitsverteilungen über diverse Inhalte, dokumentierte Verstärkungsmechanismen bei emotional aufgeladenen, kontroversen oder minoritären Inhalten.

✓ Aufbau eines öffentlichen Fairness-Dashboards,

das diese Metriken nachvollziehbar darstellt und laufend aktualisiert wird.

✓ Systematische Evaluation und Steuerung von Verstärkungsmechanismen:

Empfehlungsalgorithmen werden kontinuierlich daraufhin überprüft, ob sie polarisierende, emotional aufgeladene oder marginalisierende Inhalte unverhältnismäßig verstärken. Interne Feedbackschleifen zwischen Moderations- und Empfehlungssystemen, interdisziplinäre Folgenabschätzungen zu Engagement-basierten Rankings sowie Langzeittests sichern die Wirkungskontrolle. Für viral verbreitete Inhalte kommen schwellenwertbasierte menschliche Einschätzungen zum Einsatz, um Fairness, Sicherheit und Sichtbarkeit marginalisierter Perspektiven zu gewährleisten.

Code 8

Aus- und Weiterbildung der Moderator*innen

Stärkung der fachlichen Kompetenz, ethischen Handlungssicherheit und psychischen Resilienz von Moderator*innen, die mit automatisierten Systemen und deren Auswirkungen arbeiten. Dabei steht nicht nur Qualifizierung, sondern auch Fürsorge, Schutz und strukturelle Entlastung im Zentrum.

Content-Moderation ist Hochbelastungsarbeit und erfordert professionelle Ausbildung, qualifikations- und belastungsadäquate Vergütung, psychologische Betreuung, Entlastung und Supervision.
Kompetenzaufbau ≠ Verantwortungsübertragung: Die Verantwortung für faire, funktionale Systeme liegt nicht bei einzelnen Mitarbeitenden, sondern bei der Organisation als Ganzem.

IMPLEMENTIERUNG

✓ Verpflichtende Aus- und Weiterbildungsprogramme,

die technische, ethische und intersektionale Perspektiven verbinden (z. B. zu algorithmischer Fairness, Menschenrechten, Diskriminierungsrisiken, Funktionslogiken automatisierter Systeme). Schulungen berücksichtigen sprachliche Vielfalt, regionale Kontexte und kulturelle Kodierungen. Dies betrifft sowohl Inhalte als auch methodische Zugänge (z. B. Fallbeispiele in mehreren Sprachen und kulturellen Rahmungen).

✓ Einführung eines Mentoring- oder Peer-Coaching-Programms

zur Begleitung von Einsteiger*innen und zur Förderung von Handlungssicherheit im Umgang mit komplexen Automatisierungsentscheidungen; Möglichkeit zur Supervision; Förderung von Expertise-Gruppen, die bei besonders komplexen Fällen hinzugezogen werden können (ähnlich wie „Red Teams“ in der IT-Sicherheit); Dokumentation und Austausch von Best Practices über interne Plattformen oder Wissensdatenbanken.

✓ Supervision

Moderationsteams benötigen regelmäßige Supervision, Reflexionsräume und psychosoziale Unterstützung (z. B. durch anonymisierte Gesprächsangebote, externe Betreuung); Etablierung eines klaren Rahmens zur Arbeitszeitbegrenzung bei Hochbelastung; fortlaufende Evaluation der Belastungssituation (quantitativ und qualitativ)

✓ Dynamischer Wissenstransfer

Moderationsentscheidungen basieren auf einem kontinuierlich gepflegten Wissensstand (dynamische Begriffe, Symbole, Hashtags, Memes; gesellschaftliche und politische Entwicklungen / im Kontext; regelmäßige Updates zu Plattformrichtlinien (automatisch integriert). Plattformen müssen dafür sorgen, dass Richtlinienänderungen sowie neu identifizierte Moderationsrisiken über interne Update-Systeme zeitnah an alle relevanten Stellen verbreitet werden.

✓ Schulungen folgen partizipativen, interaktiven Prinzipien

(z. B. Fallanalysen, Simulationen, Dialogformate). Wo sinnvoll, erfolgt eine Einbindung externer Anbieter*innen – etwa solcher mit Spezialisierung auf diskriminierungssensible Bildung, Ethikberatung oder Digital Rights Advocacy. Ergänzend kann eine Kooperation mit zivilgesellschaftlichen Organisationen, Forschungsinstituten und Fachverbänden erfolgen.

✓ Die regelmäßige Evaluierung und Weiterentwicklung der Inhalte

unter Einbezug externer Expert*innen.

Code 9

Kontinuierliches Feedbacksystem

Sicherstellung, dass automatisierte Entscheidungen fortlaufend durch menschliche Perspektiven überprüft und verbessert werden – sowohl durch interne Rückmeldungen von Moderator*innen, als auch durch formalisierte Einspruchsmöglichkeiten für Nutzer*innen. Dieser doppelte Feedbackloop soll dazu beitragen, Fairness, Systemlernen und Vertrauen zu gewährleisten.

IMPLEMENTIERUNG

✓ Moderator*innen → System: Internes Feedback

Benutzerfreundliche Feedback-Buttons oder Markierungstools, mit denen Moderator*innen Systementscheidungen kommentieren, korrigieren oder zur Überprüfung kennzeichnen können. Feedbacks sollen durch eine technische Schnittstelle direkt in die Fortentwicklung der Moderationssysteme einfließen, um Fehleranfälligkeiten systematisch und zeitsensitiv zu minimieren.
Einbindung von Moderator*innen in regelmäßige Reflexions- und Reviewprozesse, etwa durch:
- Usability-Workshops,
- retrospektive Fehleranalysen,
- Feedbacksprints mit Entwickler*innen.
Verpflichtende Prozessevaluation durch Moderator*innen in festgesetzen Intervallen.

✓ Nutzer*innen → Plattform: Externer Einspruch

Einführung eines niedrigschwelligen, barrierearmen Einspruchssystems i.S.d. Art. 20 GdD für sanktionierte Inhalte mit nachvollziehbarer Begründung und transparenter Rückmeldung. Verpflichtende menschliche Überprüfung aller Einsprüche im Einklang mit Art. 20 Abs. 6 GdD – keine automatisierte Finalentscheidung. Auf Wunsch erhalten betroffene Nutzer*innen Zugriff auf eine Übersicht relevanter Daten zu ihrer Einspruchsbearbeitung, wie z. B. Bearbeitungszeit, Beteiligte, Ergebnis einschl. Begründung.
Möglichkeit für Nutzer*innen, auf Kontextinformationen hinzuweisen (z. B. Ironie, Aktivismus, geschützte Gruppen), die maschinell ggf. falsch klassifiziert wurden.
Angemessene Berücksichtigung der durch Nutzer*innen erhobenen Einsprüche in der Fortentwicklung von Moderationssystemen.
Datensparsamer Einspruchsweg für meldende oder betroffene Nutzer*innen (keine Retraumatisierung durch Zwang zur Detailwiedergabe von Gewalt- oder Diskriminierungserfahrungen). Bei potentiell strafrechtlich relevanten Inhalten wird unter strikter Beachtung datenschutzrechtlicher Vorschriften (insb. Artt. 10,17 DSGVO) eine sichere Dokumentation durch authorisierte Stellen vorgenommen.
Plattformen pflegen eine interne, strukturierte Protokollierung aller automatisierten und hybriden Moderationsentscheidungen mit Feedbackbezug (z. B. Flagging, Korrektur, Einspruch, Ergebnis).

Code 10

Transparenz, Verständlichkeit und Erklärbarkeit

Entscheidungen automatisierter Systeme müssen für Nutzer*innen, zivilgesellschaftliche Organisationen, Wissenschaft, Behörden und Regulierungsinstanzen verständlich sein. Dies umfasst die Offenlegung relevanter Systeminformationen ebenso wie die Möglichkeit zur Einsicht, Prüfung der Rechtmäßigkeit und Anfechtung.

Im Einklang mit dem Schutz geistigen Eigentums und von Geschäftsgeheimnissen sollen insbesondere folgende Elemente offengelegt werden:

Kernlogik der algorithmischen Entscheidungsprozesse: z. B. Filterkriterien, Scoring-Systeme, Verstärkungsmechanismen, Training des Modells.
Systemcharakteristika: Regelbasierte Systeme, Art des Machine Learning (supervised, unsupervised, reinforcement), Deep Learning, Hash-Matching, hybride Modellarchitekturen, Modellzweck.
Verwendete Trainingsdaten: Offenlegung gemäß Art. 53 Abs. 1 lit. d KIVO; dies betrifft insbesondere den Ursprung der Daten, Datenkategorien sowie mögliche Verzerrungen.
Beschreibung automatisierter und menschlicher Entscheidungsschritte, inkl. Entscheidungsgrundlagen (AGB, Richtlinien, gesetzliche Vorgaben), vgl. insb. Art. 17 GdD.
Fehlentscheidungen und Revisionspraxis: Anteil automatisierter Moderation, Rücknahmequote, Einspruchsverfahren, systematische Verzerrungen (Bias Detection), spezifische Auswirkungen auf Betroffene.

Diese Offenlegung erfolgt entsprechend den Vorgaben aus dem Gesetz über digitale Dienste (GdD), insbesondere:

Klar verständliche Informationen zu algorithmischen Entscheidungsprozessen für Nutzer*innen (Art. 15 GdD).
Klare und spezifische Begründungspflichten für Moderationsentscheidungen (Art. 17 GdD).
Risikoabschätzungen und deren Veröffentlichung im Transparenzbericht; Bereits bestehende risikobasierte Assessments (z. B. im Rahmen der KIVO, interner Risikoanalysen oder externer Audits) sollen sinnvoll integriert und offen kommuniziert werden (Artt. 34, 42 GdD).
Informationspflichten bei automatisierten Entscheidungen (Artt. 13, 14, 15, 22 DSGVO).

Einzelfallerklärungen

Für alle relevanten Einzelfallentscheidungen werden strukturierte, verständliche und zugängliche Erklärungen bereitgestellt – unabhängig davon, ob die Entscheidung automatisiert, menschlich oder hybrid getroffen wurde. Dies betrifft:

Nutzer*innen, deren Inhalte entfernt, markiert oder depriorisiert wurden
Nutzer*innen, deren Meldung nicht zu einer Maßnahme geführt hat
Die Änderung einer Entscheidung, die bereits getroffen wurde

Die Erklärungen müssen klar und spezifisch sein und den Vorgaben des Art. 17 GdD, Artt. 13, 14, 15 DSGVO und Art. 86 KIVO entsprechen.
Entscheidungen, die kollektive Auswirkungen auf ganze Gruppen oder Themenfelder haben, sollen in aggregierter Form öffentlich dokumentiert und regelmäßig analysiert werden (z. B. zur Sichtbarkeit queerer Inhalte oder von politischem Aktivismus).

IMPLEMENTIERUNG

✓ Tranzparenz-Dashboards

Entwicklung eines öffentlich zugänglichen Transparenz-Dashboards (ausgehend von den Transparenzberichten i.S.d GdD, bspw. Artt. 15, 24 GdD), das technische Kernlogiken, Fairnessmetriken, Einspruchsstatistiken darstellt.

✓ Aufbau eines standardisierten Erklärungsformats

für Einzelfälle, das kontinuierlich weiterentwickelt wird (i.S.d Art. 17 GdD).

✓ Regelmäßige Evaluation

des Erklärungsformats unter Einbeziehung von zivilgesellschaftlichen Organisationen, Community-Vertreter*innen, unabhängigen Wissenschaftler*innen sowie Moderationsteams.

✓ Überführung der Evaluationsergebnisse

in Schulungsprogramme, Modellanpassungen und Weiterentwicklungen.

Weitere Graphite Publikationen

More information

Vertrauen schaffen

Hintergrund

Anerkennung verschiedener Faktoren, welche den Grad der Automatisierung gebieten

IMPLEMENTIERUNG

✓ Ethische Leitlinien

✓ Einbindung betroffener Gruppen durch partizipativen Feedbackprozesse

✓ Aufbau transparenter Verfahren zur Evaluierung und Auditierung

✓ Einführung menschlicher Kontrollintervalle resp. Eingriffspunkte,

✓ Prüfung von Geofencing-Mechanismen,

✓ Festlegung auf Benchmarks

Verantwortungsbewusste Delegation

IMPLEMENTIERUNG

✓ Transparente Schwellenwerte und Kontextdefinitionen:

✓ Trainingsbasierte Systementwicklung:

✓ Human Oversight als Pflichtkomponente:

✓ De-Risking durch Monitoring

✓ Entwicklung quantitativer wie qualitativer Indikatoren

Notfallmechanismen für menschliches Eingreifen

IMPLEMENTIERUNG

✓ Einführung von „Override“-Funktionen

✓ Aufbau eines mehrstufigen Eskalationsverfahrens, das regelt:

✓ Grundlage:

Unterbrechung der automatisierten Moderation bei Komplexitätsindikation

IMPLEMENTIERUNG

✓ Entwicklung einer automatisierten Früherkennung,

✓ Komplexitätsindikatoren

✓ Hinreichende Schulung

Menschengerechte Interfacegestaltung & psychologische Unterstützung

IMPLEMENTIERUNG

✓ Regelmäßige Usability-Tests

✓ Bewertung nach User-Centered Design-Prinzipien, etwa:

✓ Traumasensibles Desig﻿n für belastende Inhalte, z. B.:

✓ Einführung von Reflexions-, Rückmelde- und Entlastungsstrukturen

Ausgleich von Datenschautz und Kontextinformation

IMPLEMENTIERUNG

✓ Entwicklung kontextewahrender Analyseverfahren,

✓ Durchführung standardisierter Datenschutz-Folgenabschätzungen

✓ Definition und Gewichtung notwendiger Kontextdaten

✓ Gestufte Rechteabwägung im Einklang mit dem GdD:

✓ Dynamische Kontexterkennung:

Fairness und Diskriminierungfreiheit

IMPLEMENTIERUNG

✓ Meaningful Stakeholder Engagement:

✓ Regelmäßige, unabhängige Bias-Audits,

✓ Transparente Analyse der Trainings- und Modellierungsdaten

✓ Einsatz und Veröffentlichung multipler Fairnessmetriken, etwa:

✓ Aufbau eines öffentlichen Fairness-Dashboards,

✓ Systematische Evaluation und Steuerung von Verstärkungsmechanismen:

Aus- und Weiterbildung der Moderator*innen

IMPLEMENTIERUNG

✓ Verpflichtende Aus- und Weiterbildungsprogramme,

✓ Einführung eines Mentoring- oder Peer-Coaching-Programms

✓ Supervision

✓ Dynamischer Wissenstransfer

✓ Schulungen folgen partizipativen, interaktiven Prinzipien

✓ Die regelmäßige Evaluierung und Weiterentwicklung der Inhalte

Kontinuierliches Feedbacksystem

IMPLEMENTIERUNG

✓ Moderator*innen → System: Internes Feedback

✓ Nutzer*innen → Plattform: Externer Einspruch

Transparenz, Verständlichkeit und Erklärbarkeit

IMPLEMENTIERUNG

✓ Tranzparenz-Dashboards

✓ Aufbau eines standardisierten Erklärungsformats

✓ Regelmäßige Evaluation

✓ Überführung der Evaluationsergebnisse

Kontext & Entwicklung

Expert*innen

Ressourcen

Collagen

Weitere Ressourcen zu Content Moderation

Gesetzestexte

Über das Forschungsprojekt

Human in the Loop?

Förderung

Autor*innen

✓ Traumasensibles Design für belastende Inhalte, z. B.: