Die Einstellung ist kostspielig und zeitaufwändig – und für Arbeitgeber und Arbeitnehmer gleichermaßen von großer Bedeutung. Um diesen Prozess zu verbessern, haben Arbeitgeber begonnen, sich algorithmischen Techniken zuzuwenden, in der Hoffnung, qualitativ hochwertige Kandidaten effizienter einstellen zu können.
Arbeitgeber waren besonders daran interessiert, einen Weg zu finden, um die Screening-Phase in der Einstellungspipeline zu automatisieren. Im Großen und Ganzen gibt es vier Phasen des Einstellungsprozesses: Sourcing (Anwerben oder Pflegen eines Kandidatenpools), Screening, Vorstellungsgespräch und Auswahl.einsIn der Screening-Phase werden Bewerber bewertet – einige ausgewählt und andere hervorgehoben, um besondere Aufmerksamkeit zu erhalten. Während Anbieter aufgekommen sind, die algorithmische Tools für jede Phase des Einstellungsprozesses anbieten, ist das algorithmische Screening der aktivste Bereich der Entwicklung und oft der folgenreichste, da es den Hauptfilter darstellt, den Bewerber zunehmend durchlaufen müssen.
Dieser Brief befasst sich mit den politischen Fragen, die durch das algorithmische Screening aufgeworfen werden. Wir geben einen Überblick über Techniken des algorithmischen Screenings, fassen die relevante Rechtslandschaft zusammen und werfen eine Reihe dringender politischer Fragen auf.
Die Einstellung von Mitarbeitern in den Vereinigten Staaten hat eine lange und schwierige Geschichte der Diskriminierung. Jüngste Studien haben gezeigt, dass sich in den letzten Jahrzehnten trotz verstärkter Investitionen in Diversity- und Inklusionsinitiativen wenig geändert hat.zweiDie anhaltende Voreingenommenheit bei der menschlichen Entscheidungsfindung und das offensichtliche Versagen dieser etablierten Ansätze zur Bekämpfung von Diskriminierung erklären einen Großteil des jüngsten Interesses an algorithmischen Einstellungen. Befürworter des algorithmischen Screenings sehen darin einen vielversprechenden Weg.
Das kanonische Beispiel für algorithmisches Screening ist die automatisierte Lebenslaufanalyse: Ein Kandidat reicht einen Lebenslauf ein und ein Algorithmus wertet diesen aus, um eine Punktzahl zu erstellen, die die Qualität oder Eignung des Bewerbers für die Stelle angibt. In solchen Fällen liegt die endgültige Einstellungsentscheidung normalerweise bei einem Menschen, obwohl ein automatisierter Prozess den Kandidatenpool ausgewählt und in eine Rangfolge gebracht hat. Um diese Bewertung durchzuführen, kann ein Algorithmus dem Kandidaten beispielsweise basierend auf dem Vorhandensein bestimmter Schlüsselwörter (z. B. Produktmanager oder Umsatzsteigerung) in seinem Lebenslauf eine höhere Punktzahl zuweisen. Wichtig ist, dass die Regeln, die bestimmen, welche Schlüsselwörter welche Punktzahl verdienen, möglicherweise nicht von einem Menschen geschrieben werden; Stattdessen können diese Regeln automatisch durch einen Prozess namens maschinelles Lernen entwickelt werden. Um zu bestimmen, welche Keywords von erfolgreichen Mitarbeitern verwendet werden, benötigt das Machine-Learning-System Daten aus der Vergangenheit, aus denen es lernen kann. Dem maschinellen Lernsystem könnten beispielsweise die Lebensläufe aktueller Mitarbeiter und Daten zu ihrer Leistung am Arbeitsplatz (z. B. ihre Verkaufszahlen) zur Verfügung gestellt werden. Zusammengenommen kann der Computer dann Schlüsselwörter identifizieren, die erfolgreiche Mitarbeiter in ihren Lebensläufen verwendet haben. Auf dieser Grundlage kann das maschinelle Lernsystem eine Reihe von Regeln erstellen (allgemein als Modell oder Algorithmus bekannt; wir werden die beiden synonym verwenden), um anhand des Lebenslaufs eines zukünftigen Bewerbers vorherzusagen, wie gut ein Mitarbeiter sein könnte.
Während das Screening von Lebensläufen ein gewisses Maß an öffentlicher Aufmerksamkeit erlangt hat, bieten führende Anbieter von algorithmischen Screening-Tools sehr unterschiedliche Arten von Bewertungen an. Zum Beispiel das Unternehmen Pymetrie 3vertreibt spielbasierte Assessments, bei denen Bewerber maßgeschneiderte Spiele spielen, und proprietäre Algorithmen analysieren das Gameplay, um Kandidaten nach einer Reihe von Eigenschaften wie Lernfähigkeit und Entschlossenheit zu bewerten. Bei solchen Bewertungen können die Eingaben für den Algorithmus etwas weniger klar sein als beim Screening von Lebensläufen – zum Beispiel können Algorithmen die Reaktionszeiten oder die Gedächtnisfähigkeit der Kandidaten verwenden, um Vorhersagen über andere Eigenschaften zu treffen.
Oberflächlich betrachtet scheinen algorithmische Screening-Tools vollständig evidenzbasiert zu sein, was sie zu einer attraktiven Alternative zu voreingenommenen menschlichen Bewertungen macht. Es gibt jedoch immer mehr Beweise dafür, dass solche Tools menschliche Vorurteile, die sich in den Datensätzen, auf denen diese Tools basieren, manifestieren, reproduzieren und sogar verstärken können. Daten kodieren zutiefst subjektive Entscheidungen und Urteile; es sind selten neutrale Aufzeichnungen. Arbeitgeber entscheiden beispielsweise, wer in den Datensatz aufgenommen wird – oft aufgrund ihrer früheren Einstellung – und was einen guten Mitarbeiter ausmacht. Wenn ein Arbeitgeber zum Beispiel noch nie einen Kandidaten von einem historisch schwarzen College oder einer Universität eingestellt hat, würde ein Algorithmus dann wissen, wie man solche Kandidaten effektiv bewertet? Würde es lernen, Kandidaten anderer Schulen zu bevorzugen? Algorithmen stellen naturgemäß die menschlichen Entscheidungen, die einem Datensatz zugrunde liegen, nicht in Frage. Stattdessen versuchen sie getreulich, vergangene Entscheidungen zu reproduzieren, was dazu führen kann, dass sie genau die menschlichen Vorurteile widerspiegeln, die sie ersetzen sollen.
Oberflächlich betrachtet scheinen algorithmische Screening-Tools vollständig evidenzbasiert zu sein. … Es gibt jedoch immer mehr Beweise dafür, dass solche Werkzeuge menschliche Vorurteile reproduzieren und sogar verstärken können.
Anbieter weisen häufig auf die Objektivität von Algorithmen als Vorteil gegenüber traditionellen Einstellungsverfahren hin und behaupten häufig, dass ihre Bewertungen unvoreingenommen sind oder verwendet werden können, um menschliche Vorurteile zu mildern. In der Praxis ist jedoch wenig über die Konstruktion, Validierung und Verwendung dieser neuartigen algorithmischen Screening-Tools bekannt, zum Teil weil diese Algorithmen (und die zu ihrer Erstellung verwendeten Datensätze) in der Regel proprietär sind und private, sensible Mitarbeiterdaten enthalten. In einer kürzlich durchgeführten Studie haben wir (zusammen mit Jon Kleinberg und Karen Levy) eine Umfrage zu den öffentlichen Stellungnahmen von Anbietern algorithmischer Screening-Tools durchgeführt.4feststellen, dass die Branche selten Einzelheiten zu ihren Methoden oder Mechanismen offenlegt, mit denen sie eine unvoreingenommene Bewertung anstrebt. In unserer Studie haben wir 18 Anbieter von algorithmischen Assessments befragt, ihre Praktiken dokumentiert und sie im Kontext des US-amerikanischen Beschäftigungsdiskriminierungsgesetzes analysiert.
Titel VII des Civil Rights Act von 1964 verbietet Diskriminierung aufgrund von Rasse, Hautfarbe, Religion, Geschlecht oder nationaler Herkunft. Ein solches Verbot gilt sowohl für vorsätzliche Diskriminierung (sog. unterschiedliche Behandlung) als auch für unbeabsichtigte, aber ungerechtfertigte oder vermeidbare Diskriminierung (sog. unterschiedliche Auswirkungen). Einheitliche Richtlinien der Equal Employment Opportunity Commission zur Arbeitnehmerauswahl (im Folgenden einfach Einheitliche Richtlinien genannt) Zustände dass ein Auswahlverfahren eine Ungleichbehandlung aufweist, wenn es bei der Entscheidungsfindung ausdrücklich eines der oben genannten geschützten Merkmale berücksichtigt. Die unterschiedlichen Auswirkungen sind dagegen differenzierter: Wenn ein Auswahlverfahren Kandidaten einer geschützten Gruppe mit einer deutlich niedrigeren Rate (80%, als Faustregel) aufnimmt als die einer anderen, dann weist das Auswahlverfahren unterschiedliche Auswirkungen auf . Ein Arbeitgeber könnte sich gegen einen Anspruch mit unterschiedlicher Tragweite verteidigen, indem er nachweist, dass das Auswahlverfahren einem berechtigten oder notwendigen Geschäftszweck dient, würde aber dennoch haftbar gemacht werden, wenn der Kläger dennoch ein alternatives Auswahlverfahren identifizieren könnte, das den gleichen Zweck hätte erfüllen können, aber weniger generiert hätte unterschiedlichen Auswirkungen.
In unserer Studie stellen wir fest, dass Anbieter von algorithmischen Einstellungsbewertungen in der Regel eine unterschiedliche Behandlung vermeiden, indem sie einfach sicherstellen, dass geschützte Attribute wie Rasse oder Geschlecht nicht als Input für ihre Modelle verwendet werden. Hinsichtlich der unterschiedlichen Auswirkungen fallen die Anbieter jedoch in zwei Lager. Nach den Uniform Guidelines besteht eine Möglichkeit, sich gegen eine Klage mit unterschiedlichen Auswirkungen zu verteidigen, darin, nachzuweisen, dass die fragliche Bewertung – der Screening-Algorithmus – Gültigkeit hat, d. h. eine berufsbezogene Qualität genau vorhersagt. Selbst wenn der Screening-Algorithmus also unterschiedliche Auswirkungen hat, kann er als einem legitimen Geschäftsziel dienend gerechtfertigt werden, wenn er ausreichend genau ist.
[A]selbst wenn der Screening-Algorithmus unterschiedliche Auswirkungen hat, kann er gerechtfertigt werden, damit er einem legitimen Geschäftsziel dient, wenn er hinreichend genau ist.
Einige Anbieter unternehmen jedoch den zusätzlichen Schritt, zu untersuchen, ob sie einen anderen Screening-Algorithmus entwickeln können, der gleich gut funktioniert und gleichzeitig die Unterschiede bei den Auswahlquoten zwischen den Gruppen verringert. Mit anderen Worten, diese Anbieter helfen Arbeitgebern, die Existenz tragfähiger alternativer Geschäftspraktiken zu entdecken – Praktiken, die unterschiedliche Auswirkungen deutlich reduzieren, ohne den Arbeitgebern erhebliche Kosten aufzuerlegen. Arbeitgeber, die solche alternativen Screening-Tools nicht in Betracht ziehen und anwenden, würden sich einer Haftung aussetzen, da die Kläger argumentieren könnten, dass der ursprüngliche Screening-Prozess nicht wirklich eine geschäftliche Notwendigkeit ist oder durch ein legitimes Geschäftsziel gerechtfertigt ist. In der Praxis beobachten wir, dass viele Anbieter sicherstellen, dass Bewertungen von vornherein keine unterschiedlichen Auswirkungen haben, und so jeglichen Vorwurf der Diskriminierung abwehren, ohne sich auf die Gültigkeit einer Bewertung verlassen zu müssen. Die Anbieter haben sich in diese Richtung bewegt, obwohl die algorithmischen Beurteilungen im Arbeitsverhältnis unseres Wissens noch vor rechtlichen Herausforderungen stehen.
Technisch gesehen gibt es eine Reihe von De-Biasing-Methoden, die Anbieter als Teil dieser zweiten Strategie anwenden können. Ein üblicher Ansatz besteht darin, ein Modell zu erstellen, es auf unterschiedliche Auswirkungen zu testen und, wenn unterschiedliche Auswirkungen festgestellt werden, Eingaben zu entfernen, die zu diesen unterschiedlichen Auswirkungen beitragen, und das Modell neu aufzubauen. Betrachten Sie zum Beispiel einen Algorithmus zur Überprüfung des Lebenslaufs, bei dem festgestellt wurde, dass Männer häufiger als Frauen ausgewählt werden. Angenommen, dieser Algorithmus (wie eines angeblich gebaut – aber nie benutzt – von Amazon ) gibt Bewerbern, die Lacrosse gespielt haben, höhere Punktzahlen. Beachten Sie, dass Lacrosse-Spiele legitimerweise eine gewisse Korrelation mit wünschenswerten Arbeitsergebnissen haben können; diejenigen, die Erfahrung im Mannschaftssport haben, können im Team-Setting im Durchschnitt besser abschneiden als diejenigen ohne diese. Es kann jedoch auch der Fall sein, dass Lacrosse dazu neigt, von wohlhabenden weißen Männern gespielt zu werden, und daher könnte das Modell eher aus dieser Gruppe auswählen. Um dies zu bekämpfen, kann ein Anbieter oder Arbeitgeber dem Algorithmus verbieten, das Wort Lacrosse in einem Lebenslauf zu berücksichtigen, wodurch das Modell gezwungen wird, alternative Begriffe zu finden, die den Erfolg vorhersagen, und dadurch möglicherweise die ursprünglichen unterschiedlichen Auswirkungen abschwächen. Die Hoffnung ist, dass das Modell, dem der Zugriff auf das Wort Lacrosse verweigert wird, andere Erfolgsprädiktoren – vielleicht Sport oder Team – identifizieren wird, die auf alle potenziellen Jobkandidaten gleichermaßen zutreffen.
Die Identifizierung und Minderung von Verzerrungen bei Screening-Algorithmen wirft eine Reihe dringender politischer Bedenken auf. Im Folgenden identifizieren wir eine Reihe von Themen, die einer größeren und oft dringenderen Aufmerksamkeit bedürfen.
Dies ist seit langem ein Problem bei Fällen mit unterschiedlichen Auswirkungen – der Fall der Klägerin basiert nicht allein auf ihrer eigenen Erfahrung, sondern auf der aggregierten Auswirkung eines Auswahlverfahrens auf eine Gruppe von Personen. Daher erfordert der Nachweis unterschiedlicher Auswirkungen Daten von einer ausreichend großen Gruppe. In früheren Bewertungen war möglicherweise der Schluss möglich, dass eine bestimmte Frage oder Anforderung eine Gruppe im Vergleich zu einer anderen übermäßig oder unnötig belastet; Mit modernen algorithmischen Screening-Tools werden die Kandidaten jedoch möglicherweise nicht aufgefordert, eine traditionelle Bewertung durchzuführen, und sie wissen möglicherweise nicht einmal, wie genau sie bewertet werden. Daher kann es sein, dass ihnen jegliche Hinweise darauf fehlen, dass der Bewertungsmechanismus potenziell diskriminierend ist.
Nach den Uniform Guidelines können Arbeitgeber unterschiedliche Auswirkungen begründen, indem sie die Vorhersagekraft ihrer Auswahlverfahren nachweisen. Dadurch entsteht im Kontext des maschinellen Lernens eine nahezu Tautologie: Modelle, die durch maschinelles Lernen erstellt werden, sind per Definition darauf ausgelegt, prädiktive Validität zu gewährleisten.5Während Kläger die Gültigkeit des eingebauten Validierungsprozesses selbst in Frage stellen könnten, ist unklar, wann herkömmliche Formen der Validierung selbst bei ordnungsgemäßer Durchführung nicht ausreichen.
[V]alidation kann berichten, dass ein Modell insgesamt sehr gut abschneidet, während verschwiegen wird, dass es für eine Minderheitsbevölkerung sehr schlecht abschneidet.
Es gibt eine Reihe von Gründen, Validierungsstudien gegenüber misstrauisch zu sein. Erstens kann die Validierung berichten, dass ein Modell insgesamt sehr gut abschneidet, während verschleiert wird, dass es für eine Minderheitsbevölkerung sehr schlecht abschneidet. Zum Beispiel ein Modell, das bestimmte Ergebnisse für eine Mehrheitsgruppe (z. B. 95 % der Bevölkerung) perfekt vorhersagt, aber bei einer Minderheitsgruppe (z. B. 5 % der Bevölkerung) immer Fehler macht, könnte insgesamt noch sehr genau sein (d. h. 95% Genauigkeit). Gängige Methoden zur Bewertung eines Modells berücksichtigen selten Unterschiede in der Genauigkeit oder Fehler zwischen verschiedenen Gruppen. Zweitens haben Arbeitgeber, die mit Anbietern zusammenarbeiten, eine beträchtliche Freiheit bei der Wahl des Ergebnisses, das Modelle vorhersagen sollen (z. B. die Qualität potenzieller Arbeitnehmer). Für diese Ergebnisse gibt es selten ein direktes oder objektives Maß; stattdessen müssen Praktiker einen Proxy wählen (z. B. Leistungsbewertungsergebnisse).6Da Leistungsbewertungen subjektive Bewertungen sind, laufen sie Gefahr, ungenau und voreingenommen zu sein. Und obwohl es möglich ist, ein Modell zu erstellen, das Leistungsüberprüfungen genau vorhersagt, würde dies lediglich die diskriminierenden Bewertungen reproduzieren. Mit anderen Worten, das Modell würde die Gültigkeit bei der Vorhersage eines verzerrten Ergebnisses demonstrieren. Schließlich sind Behauptungen bezüglich Validität, fehlender Voreingenommenheit und unterschiedlichen Auswirkungen datensatz- und kontextspezifisch. Solche Behauptungen beruhen auf der Annahme, dass die Population und die Umstände, die in einem zur Bewertung eines Modells verwendeten Datensatz erfasst werden, mit der Population und den Umständen übereinstimmen, auf die das Modell angewendet wird. Dies ist aber in der Praxis selten der Fall. Ein Modell, das ein gültiger Prädiktor ist, das keine unterschiedlichen Auswirkungen in einem städtischen Kontext zeigt, könnte in einem ländlichen Kontext nicht vorhanden sein. Somit kann ein Auswahlverfahren nicht allgemeingültig oder unvoreingenommen bestimmt werden.
Sollte sich ein Arbeitgeber oder Anbieter mit jedem dieser Bedenken auseinandersetzen, bleibt möglicherweise die Frage: Reicht die Vorhersagekraft aus, um sich gegen einen Anspruch mit unterschiedlichen Auswirkungen zu verteidigen? Mit anderen Worten, würde eine nachweisbare Korrelation zwischen Inputs und Outcomes ausreichen? Die Uniform Guidelines scheinen die Möglichkeit zu bieten, ein Modell entsprechend zu validieren; Es besteht keine Verpflichtung, einen kausalen Mechanismus zu identifizieren, aufgedeckte Zusammenhänge theoretisch zu rechtfertigen oder sogar die Beziehung zwischen Modellinputs und -ergebnissen zu verstehen. Wenn solche Modelle jedoch unterschiedliche Auswirkungen haben, könnten wir Schwierigkeiten haben, ihre Ergebnisse zu akzeptieren, wenn sie auf nicht intuitiven und daher scheinbar willkürlichen Faktoren beruhen.7Gleichzeitig könnten wir das Modell als Verbesserung begrüßen, wenn das Modell den Grad der unterschiedlichen Auswirkungen verringert, die bei früheren Einstellungspraktiken beobachtet wurden, auch wenn wir die festgestellten Korrelationen nicht erklären können.8
Arbeitgeber und Anbieter, die unterschiedliche Auswirkungen abmildern möchten, müssen zumindest die rechtlich geschützten Klassen kennen, denen die Personen in den Schulungsdaten angehören. Einem Modell einfach der Zugang zu diesen Merkmalen zum Zeitpunkt der Bewertung zu entziehen, kann keine unvoreingenommenen Entscheidungen garantieren. Arbeitgeber und Verkäufer befürchten jedoch, dass die explizite Berücksichtigung dieser Merkmale als Teil ihrer Bewertungen Anklage wegen unterschiedlicher Behandlung erheben könnte. Unsere Studie legt nahe, dass Anbieter versucht haben, diese scheinbare Spannung zu umgehen, indem sie beim Erstellen von Modellen geschützte Merkmale verwendet haben, die korrelierten Faktoren entfernt haben, die zu unterschiedlichen Auswirkungen beitragen, aber dann sicherstellen, dass die Modelle selbst gegenüber sensiblen Attributen blind sind. Diese Art der Voreingenommenheitsprävention ist zwar ansprechend, aber nicht ohne Komplikationen.
[Je sensibler die Daten sind oder die Bedingung stigmatisiert wird, desto weniger bequem kann es für Bewerber sein, sie mit Arbeitgebern zu teilen – selbst wenn der erklärte Zweck der Erhebung darin besteht, sich vor solchen unterschiedlichen Auswirkungen zu schützen.
Um dies zu beheben, müssen Arbeitgeber Informationen wie Rasse, Geschlecht und andere sensible Merkmale sammeln, die Befürworter fairer Einstellungspraktiken lange Zeit beim Einstellungsverfahren vorenthalten mussten. In vielen Fällen werden Arbeitgeber gezwungen sein, Informationen einzuholen, die von den Bewerbern zu Recht als sensibel angesehen werden, da diese Informationen in der Vergangenheit die Grundlage für Diskriminierung waren, anstatt sie zu mildern. Es ist unmöglich, die vorgeschlagenen De-Biasing-Methoden auf Modelle anzuwenden, wenn keine Informationen beispielsweise über die sexuelle Orientierung oder den Behinderungsstatus der Mitarbeiter vorliegen. Doch je sensibler die Daten oder die Stigmatisierung der Bedingung ist, desto weniger komfortabel kann es sein, dass Bewerber sie mit Arbeitgebern teilen – selbst wenn der erklärte Zweck der Erhebung darin besteht, sich vor solchen unterschiedlichen Auswirkungen zu schützen.
Unsere Studie legt nahe, dass sich Anbieter bisher darauf konzentriert haben, sicherzustellen, dass ihre Modelle nur minimale unterschiedliche Auswirkungen haben, und lassen Fragen zu Unterschieden in der Modellgenauigkeit in der Bevölkerung beiseite. Stellen Sie sich ein Modell vor, das bei der Vorhersage von Arbeitsergebnissen für eine Gruppe absolut genau ist, aber für eine andere Gruppe nicht besser abschneidet als zufällig. Ein solches Modell würde möglicherweise zu keinen Unterschieden in den Auswahlraten führen, aber die Qualität seiner Bewertung würde sich zwischen den Gruppen dramatisch unterscheiden – ein Phänomen, das als differenzielle Validität bekannt ist. Bewertungen mit unterschiedlicher Validität könnten Menschen leicht zum Scheitern bringen und die schädlichen Stereotypen unterstützen, die in der Vergangenheit diskriminierende Einstellungen gerechtfertigt haben.9
Die differenzielle Validität kann auch eine entscheidende diagnostische Funktion erfüllen: Ein Modell kann für verschiedene Gruppen unterschiedlich funktionieren, da die Faktoren, die das interessierende Ergebnis vorhersagen, nicht in jeder Gruppe gleich sind. Wenn wir beobachten, dass ein Modell unterschiedliche Validität aufweist, lernen wir, dass die Beziehung zwischen Modelleingaben und tatsächlichen Ergebnissen wahrscheinlich zwischen den Gruppen unterschiedlich ist. Mit anderen Worten, verschiedene Faktoren sagen den Erfolg für verschiedene Gruppen voraus.
Es gibt einige Schritte, die Entwickler algorithmischer Bewertungen unternehmen können, um die unterschiedliche Validität zu verringern. Grundsätzlich benötigen wir, um genaue Vorhersagen für die gesamte Population zu treffen, (1) eine breite Palette von Modelleingaben, die für die gesamte Population prädiktiv sein können (d. h. nicht nur gruppenspezifische Eingaben wie Lacrosse); und (2) ein vielfältiger Datensatz, der Beispiele erfolgreicher Personen mit unterschiedlichem Hintergrund enthält. Wichtig ist, dass beides nicht erreicht werden kann, indem das Modell selbst entzerrt wird. In einigen Fällen müssen Anbieter möglicherweise mehr Daten sammeln, um die unterschiedliche Validität zu verringern.
In der Vergangenheit war die Suche nach alternativen Geschäftspraktiken beim Screening recht kostspielig, sodass Unternehmen eine breite Palette von Bewertungen und Implementierungen in Betracht ziehen mussten. Algorithmische De-Biasing-Techniken versprechen jedoch, einen gewissen Grad der Erkundung zu automatisieren und praktikable alternative Geschäftspraktiken aufzudecken. Die Verwendung dieser Techniken ist jedoch nicht ohne Kosten. Verträge mit Anbietern solcher Tools können teuer werden. Die Entwicklung der Infrastruktur zum Sammeln der erforderlichen Daten, einschließlich der sensiblen Attribute der Kandidaten, kann teuer, mühsam und aufwendig sein. In einigen Fällen verringert algorithmisches De-Biasing auch die Genauigkeit einer Bewertung, da bei diesen Methoden typischerweise einige Informationen verworfen werden, die das interessierende Ergebnis wirklich vorhersagen. Dennoch ermutigen viele Anbieter ihre Arbeitgeber, genau dies zu tun, und weisen darauf hin, dass die Abschwächung unterschiedlicher Auswirkungen in der Praxis oft nur einen geringen Einfluss auf die Vorhersagegenauigkeit hat. Die Fähigkeit der Anbieter, Arbeitgeber bei der Suche nach solchen alternativen Geschäftspraktiken zu unterstützen, kann rechtlichen Druck auf die Arbeitgeber ausüben, mit ihnen zusammenzuarbeiten, da dies als unnötiges Festhalten an einem Einstellungsverfahren erscheinen könnte, das vermeidbare ungleiche Auswirkungen hat. Und wo es einen offensichtlichen Kompromiss zwischen Genauigkeit und unterschiedlichen Auswirkungen gibt, werden diese Instrumente solche Spannungen deutlich machen und Arbeitgeber zwingen, beispielsweise eine Entscheidung zu verteidigen, geringfügige Genauigkeitsgewinne einer erheblichen Verringerung der unterschiedlichen Auswirkungen vorzuziehen.
In welchem Jahr ist Neil Armstrong zum Mond gekommen?
Algorithmisches Recruiting bringt neue Versprechen, Chancen und Risiken mit sich. Wenn sie nicht überprüft werden, können Algorithmen dieselben Vorurteile und Diskriminierungen aufrechterhalten, die in bestehenden Einstellungspraktiken vorhanden sind. Bestehende rechtliche Schutzmaßnahmen gegen Diskriminierung am Arbeitsplatz gelten, wenn diese algorithmischen Werkzeuge verwendet werden; Algorithmen werfen jedoch eine Reihe nicht adressierter politischer Fragen auf, die weitere Aufmerksamkeit erfordern.
Bericht erstellt von Zentrum für Technologieinnovation