Heimlich Videos geschaut: OpenAI soll illegal mit Youtube Inhalten trainiert haben

Startup Coach Moritz Grumbach

Der Vorfall zeigt. wie wichtig allgemeine Regeln für das Training von LLMs mit fremden Inhalten sind.

Ein Roboter sitzt an einem Schreibtisch und blickt auf einen Fernsehbildschirm, auf dem eine Szene mit einem anderen Roboter aus YouTube-Inhalten gezeigt wird. In der Nähe stehen eine Schüssel Popcorn und eine Dose Getränke.
April 11, 2024

Dass Künstliche Intelligenz eine Menge Trainingsdaten braucht, um „sprachfähig“ zu werden ist bekannt. Ebenfalls bekannt ist, dass verschiedene sogenannte LLMs wie OpenAI für diese Trainings öfters einmal Daten verwendet haben, die sie nach gängigem Urheberrecht eigentlich nicht nutzen dürften. Nun wurde jedoch enthüllt, dass sowohl OpenAI als auch Google im großen Stil Urheberrechte verletzt haben, indem sie Transkriptionen von YouTube-Videos zur Schulung ihrer künstlichen Intelligenz-Modelle nutzten.

OpenAI soll über sein Spracherkennungstool Whisper mehr als eine Million Stunden YouTube-Content transkribiert haben, um sein neuestes Modell GPT-4 zu trainieren. Ebenso wurde berichtet, dass Google, das strenge Richtlinien gegen das unbefugte sogenannte „Scrapen“ oder Herunterladen von YouTube-Inhalten aufstellt, ebenfalls YouTube-Videos zur Schulung seiner eigenen AI-Modelle verwendet hat. Diese Praktiken könnten die Rechte der Content-Ersteller verletzt haben, da sie ohne deren ausdrückliche Zustimmung erfolgten. Prompt kam von YouTube auch eine scharfe Reaktion.

Google verteidigte seine Praktiken, indem es erklärte, dass es YouTube-Videos nur mit Zustimmung der Ersteller für die AI-Training verwendet. Zudem wurde im Juni 2023 eine Aufweichung der Datenschutzrichtlinien vorgenommen, um die Nutzung öffentlich verfügbarer Inhalte, einschließlich Google Docs und Google Sheets, für das Training seiner AI-Modelle umfassender abzudecken.

Die Vorfälle unterstreichen jedoch generell die Notwendigkeit für klare Richtlinien in der Nutzung von öffentlich zugänglichen Daten durch Technologieunternehmen. Bezüglich des Schutzes von Urheberrechten müssen Regeln gefunden werden, ethische Standards in der Entwicklung und dem Einsatz von künstlicher Intelligenz einzuhalten.

Mehr dazu auf Engadget.

Moritz Grumbach

Hi, ich bin Moritz Grumbach - DeinStartup.Coach!
Vor meiner Zeit als Gründungsberater habe ich zwei Startups gegründet, mehrere Millionen Euro geraised und ein breites Netzwerk an Experten und Investoren aufgebaut. Heute berate ich Gründer*Innen beim Aufbau ihres Unternehmens, bin Mentor in einigen internationalen Accelerator-Programmen und unterrichte Entrepreneurship & Innovation an einer deutschen Hochschule.

Newsletter erhalten

Möchtest Du neue Inhalte aktuell in Deiner Inbox haben? Dann hinterlasse Deine Email und erhalte laufend Neuigkeiten über die Startup-Szene.

Hier findest Du weitere Startup-News
Büro München

Luise-Ullrich-Str. 20
D-80636 München
Tel 089-2488 61 370
Email

Büro Bochum

Kortumstr. 56
D-44787 Bochum
Tel 0234-68709823
Email

Förderbar durch
DSC-Footer-Logos
Gesetzliche Angaben
Kontaktiere mich über WhatsApp