«Von Menschen erstellte Datensätze werden im KI-Zeitalter immer wichtiger. Zu diesem Schluss kommt eine britische Studie von Wissenschaftlern der Universitäten Oxford, Cambridge und London. Genau solche Datensätze könnten aber zur Mangelware werden. Die heute gängigen großen Sprachmodelle […] wurden noch vorwiegend an von Menschen generierten Datensätzen […] trainiert.»
(…)
«Die nächste Generation von KI-Anwendungen werde unweigerlich auch an Datensätzen […] trainiert, die nicht von Menschen, sondern von früheren KI-Anwendungen erstellt wurden. […] Das löse unumkehrbare Defekte aus, die in Folge ein daran trainiertes KI-Modell kollabieren ließen, heißt es in der Studie.»
«Nach mehreren solchen Iterationen gingen nämlich alle Verbindungen zum ursprünglichen Inhalt vollständig verloren und danach werde nur noch Textmüll produziert, schreiben die Autoren der Studie ‹Der Fluch der Rekursion›. Training von KI-Anwendungen an künstlich generierten Daten mache die ‹Künstliche Intelligenz› nämlich vergesslich.»
«[…] kritisiert Johansson, dass selbst engste Freunde die Stimme namens ‹Sky› nicht von ihrer eigenen unterscheiden könnten. Außerdem weist sie darauf hin, dass OpenAI-Chef Sam Altman selbst auf eine möglicherweise absichtliche Ähnlichkeit hingewiesen habe. Nachdem sie Anwälte eingeschaltet habe, habe OpenAI ‹widerwillig› zugestimmt, ‹Sky› offline zu nehmen.»
(…)
«Johansson behauptet nun, dass OpenAI vergangenen September mit der Bitte an sie herangetreten sei, ChatGPT ihre Stimme zu leihen. Auch aus persönlichen Gründen habe sie sich dagegen entschieden. Neun Monate später hätten, Freunde, ihre Familie und die Öffentlichkeit jetzt bemerkt, ‹wie sehr das neue System namens ‹Sky› klingt wie ich›.»
(…)
«Gleichzeitig versicherte OpenAI, dass dafür die Stimme einer echten Schauspielerin genutzt wird, die man aber aus Datenschutzgründen nicht namentlich nennen könne. Man sei davon überzeugt, dass KI-Stimmen nicht absichtlich solche von bekannten Persönlichkeiten nachahmen sollten, ‹Sky› sei nicht als Kopie von Scarlett Johansson gedacht. […]»
«Die Aufgabe ist eigentlich ziemlich leicht: ‹Alice hat N Brüder und M Schwestern. Wie viele Schwestern hat Alice Bruder?› Während die meisten Erwachsenen – und laut der Autoren einer Studie auch Kinder – die Aufgabe wohl lösen können, scheitern die gängigen Großen Sprachmodelle, Large Language Models (LLM). Noch schlimmer, wie die Forscher finden, denn die KI-Modelle behaupten auch noch steif und fest, die richtige Antwort herausgefunden zu haben, wenn es die falsche war, und sie argumentieren logisch klingend, aber ebenfalls falsch.»
(…)
«Nimmt man die weitläufig bekannte Metapher daher, LLMs seien stochastische Papageien, die also nur wiedergeben, was sie aufgeschnappt hätten, verwundert es nicht, dass sie an solchen Aufgaben scheitern. […] Die Anbieter der gängigen KI-Modelle machen allerdings immer wieder große Versprechungen, wie gut ihre Modelle in Tests zum logischen Denken abschnitten.»
(…)
«Deshalb schlagen die Wissenschaftler auch vor, man müsse die bisherigen Benchmarks überdenken, da sie so simple Reasoning-Defizite nicht entdeckten.»