Der Vorfall zeigt. wie wichtig allgemeine Regeln für das Training von LLMs mit fremden Inhalten sind.
Dass Künstliche Intelligenz eine Menge Trainingsdaten braucht, um „sprachfähig“ zu werden ist bekannt. Ebenfalls bekannt ist, dass verschiedene sogenannte LLMs wie OpenAI für diese Trainings öfters einmal Daten verwendet haben, die sie nach gängigem Urheberrecht eigentlich nicht nutzen dürften. Nun wurde jedoch enthüllt, dass sowohl OpenAI als auch Google im großen Stil Urheberrechte verletzt haben, indem sie Transkriptionen von YouTube-Videos zur Schulung ihrer künstlichen Intelligenz-Modelle nutzten.
OpenAI soll über sein Spracherkennungstool Whisper mehr als eine Million Stunden YouTube-Content transkribiert haben, um sein neuestes Modell GPT-4 zu trainieren. Ebenso wurde berichtet, dass Google, das strenge Richtlinien gegen das unbefugte sogenannte „Scrapen“ oder Herunterladen von YouTube-Inhalten aufstellt, ebenfalls YouTube-Videos zur Schulung seiner eigenen AI-Modelle verwendet hat. Diese Praktiken könnten die Rechte der Content-Ersteller verletzt haben, da sie ohne deren ausdrückliche Zustimmung erfolgten. Prompt kam von YouTube auch eine scharfe Reaktion.
Google verteidigte seine Praktiken, indem es erklärte, dass es YouTube-Videos nur mit Zustimmung der Ersteller für die AI-Training verwendet. Zudem wurde im Juni 2023 eine Aufweichung der Datenschutzrichtlinien vorgenommen, um die Nutzung öffentlich verfügbarer Inhalte, einschließlich Google Docs und Google Sheets, für das Training seiner AI-Modelle umfassender abzudecken.
Die Vorfälle unterstreichen jedoch generell die Notwendigkeit für klare Richtlinien in der Nutzung von öffentlich zugänglichen Daten durch Technologieunternehmen. Bezüglich des Schutzes von Urheberrechten müssen Regeln gefunden werden, ethische Standards in der Entwicklung und dem Einsatz von künstlicher Intelligenz einzuhalten.
Mehr dazu auf Engadget.
Möchtest Du neue Inhalte aktuell in Deiner Inbox haben? Dann hinterlasse Deine Email und erhalte laufend Neuigkeiten über die Startup-Szene.
Luise-Ullrich-Str. 20
D-80636 München
Tel 089-2488 61 370
Email
Kortumstr. 56
D-44787 Bochum
Tel 0234-68709823
Email