DSC Original Logo

Heimlich Videos geschaut: OpenAI soll illegal mit Youtube Inhalten trainiert haben

Ein lächelnder Mann in Freizeitkleidung mit einer Baseballmütze und einer grauen Kapuzenjacke, umgeben von einem orangefarbenen Kreis.

Der Vorfall zeigt. wie wichtig allgemeine Regeln für das Training von LLMs mit fremden Inhalten sind.

Ein Roboter sitzt an einem Schreibtisch und blickt auf einen Fernsehbildschirm, auf dem eine Szene mit einem anderen Roboter aus YouTube-Inhalten gezeigt wird. In der Nähe stehen eine Schüssel Popcorn und eine Dose Getränke.
November 15, 2024

Dass Künstliche Intelligenz eine Menge Trainingsdaten braucht, um „sprachfähig“ zu werden ist bekannt. Ebenfalls bekannt ist, dass verschiedene sogenannte LLMs wie OpenAI für diese Trainings öfters einmal Daten verwendet haben, die sie nach gängigem Urheberrecht eigentlich nicht nutzen dürften. Nun wurde jedoch enthüllt, dass sowohl OpenAI als auch Google im großen Stil Urheberrechte verletzt haben, indem sie Transkriptionen von YouTube-Videos zur Schulung ihrer künstlichen Intelligenz-Modelle nutzten.

OpenAI soll über sein Spracherkennungstool Whisper mehr als eine Million Stunden YouTube-Content transkribiert haben, um sein neuestes Modell GPT-4 zu trainieren. Ebenso wurde berichtet, dass Google, das strenge Richtlinien gegen das unbefugte sogenannte „Scrapen“ oder Herunterladen von YouTube-Inhalten aufstellt, ebenfalls YouTube-Videos zur Schulung seiner eigenen AI-Modelle verwendet hat. Diese Praktiken könnten die Rechte der Content-Ersteller verletzt haben, da sie ohne deren ausdrückliche Zustimmung erfolgten. Prompt kam von YouTube auch eine scharfe Reaktion.

Google verteidigte seine Praktiken, indem es erklärte, dass es YouTube-Videos nur mit Zustimmung der Ersteller für die AI-Training verwendet. Zudem wurde im Juni 2023 eine Aufweichung der Datenschutzrichtlinien vorgenommen, um die Nutzung öffentlich verfügbarer Inhalte, einschließlich Google Docs und Google Sheets, für das Training seiner AI-Modelle umfassender abzudecken.

Die Vorfälle unterstreichen jedoch generell die Notwendigkeit für klare Richtlinien in der Nutzung von öffentlich zugänglichen Daten durch Technologieunternehmen. Bezüglich des Schutzes von Urheberrechten müssen Regeln gefunden werden, ethische Standards in der Entwicklung und dem Einsatz von künstlicher Intelligenz einzuhalten.

Mehr dazu auf Engadget.

Moritz Grumbach's avatar

Moritz Grumbach

Newsletter erhalten

Möchtest Du neue Inhalte aktuell in Deiner Inbox haben? Dann hinterlasse Deine Email und erhalte laufend Neuigkeiten über die Startup-Szene.

Hier findest Du weitere Startup-News
Büro München

Luise-Ullrich-Str. 20
D-80636 München
Tel 089-2488 61 370
Email

Büro Bochum

Kortumstr. 56
D-44787 Bochum
Tel 0234-68709823
Email

Förderbar durch
DSC-Footer-Logos
Gesetzliche Angaben
1
Step 1
2
Step 2

Hi, hier ist Moritz!

Ich würde gerne alle offenen Fragen zu Deinem Projekt 🚀 beantworten - eine ganze Stunde ⏰ lang, und völlig kostenlos!

Hättest Du Lust?

Ich freue mich drauf! Wie kann ich Dich erreichen?

Kontaktiere mich über WhatsApp
Scan the code