BACKGROUND KNOWLEDGE

Künstliche Intelligenz und Design

© von Dietrich Dube

Schon 2017 prophezeite eine Oxford-Studie, dass in den nächsten 25 Jahren nahezu die Hälfte aller Jobs durch Computer und/oder KI ersetzt werden könnten. Kreative Berufe aber galten lange Zeit als durch KI unersetzbar. Jack Ma, Gründer von Alibaba, betonte 2018 in einem Interview, dass wir die Fertigkeiten fördern sollten, die nicht durch Maschinen ersetzt werden können: „Ich finde, wir sollten unseren Kindern […] Kunst beibringen – um sicher zu gehen, dass sie anders sind.“

Dennoch wurde gerade im letzten Jahr deutlich, wie nahe die KI in Form von bspw. DALL·E 2 kreativer Bildkomposition gekommen ist. Auf für jeden zugänglichen Portalen, wie DALL·E 2 von OpenAI oder Midjourney tummeln sich seitdem Interessierte und trainieren durch Ihre Versuche die KI immer weiter. Durch dieses massenhafte Feedback der Nutzer lernt die KI genau das zu liefern, was die meisten von ihr erwarten. Es wimmelt von bekannten Bildwelten vor allem aus der Science-Fiction Spielewelt, dem Comic oder der künstlichen Instagram Welt. Aber auch andere, eher ungewöhnliche Stile, wie sie von bestimmten Künstlern oder Kameras erzeugt werden, können bereits ansatzweise umgesetzt werden. Und das immer realistischer.

Was hat das für Konsequenzen für Fotografen, Designer und die Marketingverantwortlichen in Unternehmen, Parteien und die Gesellschaft als Ganzes? Diese Frage wird immer drängender. Denn die Qualität der durch KI errechneten Bilder wird ständig besser. Am Ende dieses Beitrags wagen wir einen Ausblick in die Zukunft. Bleiben Sie dran. Es lohnt sich.

Ist das echte Kreativität?

Die neurobiologische Definition von Kreativität wird oft so beschrieben: Kreativität ist die „Neuformierung von vorgegebenen Informationen“. Die meisten aktuellen KI-Angebote funktionieren als Text-zu-Bild-Technologien. Das heißt: Der Nutzer kann versuchen, durch bestimmte Beschreibungen und Befehle die KI so zu „füttern“, dass sie ihm das gewünschte Bild erzeugt. Die KI weiß (durch das Training), dass viele Menschen, die ihr bestimmte Codes zukommen lassen, oft bestimmte Erwartungen haben. Sie liefert dann auch echte Varianten davon, die manchmal so unterschiedlich sind, dass man fast das Gefühl bekommt, sie hätte die beschriebene Szenerie/Situation tatsächlich verstanden.

In einem kurzen Aufriss von Prof. Dr. Andreas Koch, Vorgelegt von Bastian Kilper, wird erklärt wie neuronale Netze (KNN) nach dem Vorbild biologischer Lebewesen, kombiniert mit Deep Learning, künstliche Intelligenz erzeugen. Diese kann so vorhandenes neu kombinieren. Neue Kombinationen in neuronalen Netzen führen zu neuen originellen Ideen. Analog zu den Neuronen in unserem Gehirn. Auch wir als Künstler oder Designer schöpfen in Wirklichkeit nicht aus dem Nichts. Wir sind vorgeprägt und kombinieren zumeist auch nur neu. Aber was ist dann noch der Unterschied zur menschlichen Kreativität?

© dube⁺ / made with midjourney

Müssen wir uns fürchten?

Yuval Noah Harari oder auch Elon Musk warnen: Künstliche Intelligenz könnte dem Menschen in nicht allzu ferner Zukunft gefährlich werden. Was unterscheidet ihrer Meinung nach heutige Formen künstlicher Intelligenz von unserer menschlichen? Den Unterschied macht das „in unseren Leib integrierte Bewusstsein“. Als Säugetiere ist unsere Identität – unser ganzes Erleben – als intelligente, kreative Lebewesen untrennbar mit dieser Körper-Existenz verbunden. Deshalb verstehen wir nicht nur abstrakt, dass ein Sonnenuntergang ein oft erwünschtes, positives Bild ist. Sondern wir erleben dieses Bild als positiv (oder auch kitschig), weil wir zugleich alle Erlebnisse von Sonnenuntergängen unseres Lebens erinnern. Denn jede und jeder hat eine ganz einzigartige Historie und ein ganz eigenes Erleben (durch Genetik oder Epigenetik). Wir verstehen also dieses Bild als Situation nicht nur, sondern wir wissen genau, wie sich so ein Sonnenuntergang an einem lauen Abend am Meer anfühlt. Genau das ist der Grund, weshalb wir auch einen Willen haben. Wir wollen in den Urlaub fahren, auch wenn wir z.B. kein Geld mehr haben :-). Oder wir wollen eben ein Bild kreieren, um uns dann dieses in dem Bild manifestierte Gefühl über das Sofa zu hängen.

Erst wenn wir es schaffen, der KI über z.B. Sensoren ein eigenes Körper-Erleben (Emotionen) und damit eine eigene Historie (Tod), also ein eigenes Bewusstsein zu geben, wird sie zu einem menschenähnlichen Akteur, der selbst etwas wollen kann. Der Menschheit entsteht dann allerdings auch ein Konkurrent, der überlegen sein könnte.

Nein.

Wir haben es also bei den Anwendungen künstlicher Intelligenz in den verschiedenen Bereichen bisher nur mit mehr oder weniger nützlichen Werkzeugen zu tun, die uns vieles einfacher und viele Abläufe schneller machen können. Wir sollten das alles, wo sinnvoll, als Kreative, Künstler, Designer nutzen. Das nötige Know-How dazu müssen wir uns selbst aneignen. Aber dadurch werden ja auch wieder neue Verknüpfungen direkt in unserem eigenen Hirn geschaffen. 🙂 Ist doch toll! Keine Angst: Es bleibt anstrengend, denn die Ansprüche der Nutzer/Kunden wachsen immer mit den Möglichkeiten.

Konkrete Anwendungen

Wir stehen direkt vor der kommerziellen Anwendbarkeit der Technologien. Besonders klischeehafte bzw. ikonische Darstellungen lassen sich schon sehr gut anfordern. Auch kennt die KI das Aussehen öffentlicher Personen. Das könnte, z.B. für meinungsstarke Pressemedien, interessant werden.

© dube⁺ / made with midjourney

Auflösung

Die max. Auflösung von 1024 Pixeln nach einem Upscaling bietet noch zu wenig Substanz für z.B. den Print-Bereich. Aber alles illustrative kann ja durchaus noch einmal händisch überarbeitet werden.

Film

Bei den AI Magic Tools von app.runwayml.com lassen sich schon ganz annehmbare Filmsequenzen per „Text zu Film“ anfordern.

Medienrecht

Die KI wird auch mit Bildmaterial und mit Stilen von Illustratoren und Künstlern „gefüttert“. Inwiefern hier die Urheberrechte verletzt werden, ist noch völlig offen.

Ausblick

Wenn wir diese Entwicklung auf der Zeitachse nach vorn projizieren, können wir, mit ein wenig Phantasie und etwas Hintergrundwissen zu den Gesetzen visueller Wahrnehmung und Psychologie, einiges zur Zukunft sagen.

Picture Superiority

Die sogenannte „picture superiority“ bezieht sich auf das Phänomen, dass Bilder eher in Erinnerung bleiben als Worte. Das wurde experimentell nachgewiesen. Zudem wissen wir als Werber, dass Bilder schneller, unterschwelliger und intensiver wirken als Texte, die wir uns ja erst erschließen müssen. Wir haben dieses Primat aus unserer evolutionären Geschichte geerbt. Wir „glauben“ auch heute noch Bildern intuitiv schnell und unbewusst. Auch das ist ausreichend wissenschaftlich untersucht worden. Eine Headline zur Klimakatastrophe besorgt uns möglicherweise. Das dazugehörige Bild, an der Wasseroberfläche schwimmender, toter Fische schockiert uns aber als erstes – und nachhaltiger. Ob wir wollen oder nicht. Dieses Bild kann jetzt nicht nur aus dem Zusammenhang gerissen, sondern auch mit Optimierung der Schockwirkung errechnet worden sein. Für die fotografische Praxis kann das z.B. bedeuten, dass die analoge Fotografie auf echten Filmen, die nicht manipuliert werden können, wieder an Bedeutung gewinnt.

Die Karriere des Zweifels

Jeder wird spontan zustimmen, wenn wir es wagen pauschal zu formulieren, dass wir unsere heutige säkularisierte Welt auf Basis von Wissenschaft und Forschung historisch der Karriere des Zweifels zu verdanken haben. Im Alltag kann der Mensch aber nicht an allem zweifeln. Das ist viel zu anstrengend. Deshalb haben wir vor allem im letzten Jahrhundert und auch heute wieder eine starke Tendenz zum Glauben. Heute aber eben in Bezug auf Ideologien, Medien oder sogar „die Wissenschaft“. Schließlich sind wir ja alle so aufgeklärt. 😉 Je nach Ausrichtung unterstützen uns viele Medien in dieser negativen Tendenz. Denn das bringt ihnen viele Vorteile. Wir leben also weiterhin in einer Welt der Manipulation und der Sehnsucht nach endgültigen Wahrheiten. Die Diversifizierung der Medienwelt und die sozialen Medien haben aber auf der anderen Seite wiederum neue Zweifel am offiziellen Narrativ geschürt. Dieser Konflikt spitzt sich derzeit zu.

Die Vertiefung des Zweifels

In dieser Konstellation werden die neuen Möglichkeiten, visuelle Welten durch KI ohne großen Aufwand immer realistischer erzeugen zu können, das tiefe Gefühl des Zweifels weiter nähren. Nachdem es sich hierbei um eine unbewusste Informationsverarbeitung auf basaler, intrapsychischer Ebene handelt, wird uns der Zweifel regelrecht in die Knochen fahren. Das wird große gesellschaftliche Auswirkungen haben, über die wir hier nichts Wertvolles sagen können. Schließlich ist der Zweifel für unsere Gesellschaft/Kultur fundamental, aber eine Gesellschaft lebt auch vom Vertrauen.

Das Ende der Werbung, mal wieder

Diese Entwicklung wird sicher Arbeitsplätze kosten. Aber sie wird vor allem unsere Zielgruppen noch weniger empfänglich für unsere glatten oder künstlich aufgerauten (Tränendrüsen-) Werbewelten machen. Sämtliche Versuche der Manipulation, mit oder ohne Bildern, werden nicht mehr so erfolgreich sein. Weil insgesamt Glaubwürdigkeit im visuellen Bereich aber auch bezogen auf Kampagnen insgesamt verloren gehen wird. Trotzdem wollen wir weiterhin Spaß an Informationen, am Einkauf und Freude an Innovationen haben. Und der ästhetische Anspruch an die Produkte und an unsere Umwelt im Ganzen wird weiterhin steigen. Die Ära der Manipulationen mit Fokus auf Angst, rührende Geschichten und erlösende, glatte Zukunfts-Welten, in denen dann alles geregelt ist, könnte aber bald ein Ende finden. Weil diese Manipulationen ganz einfach auf einer tieferen Erfahrungs- und Erlebnis-Ebene, intuitiv noch weniger glaubhaft sein werden. Der evolutionär ererbte, intuitive Glaube an das, was wir sehen, wird sehr wahrscheinlich nachlassen.

Das sehe ich ein

Sehen ist für uns aber auch ein Synonym für Verstehen. Denn Sehen und Verstehen lassen sich für uns intuitiv nicht trennen. Deshalb „sehe ich etwas auch so“, wenn ich derselben Meinung bin. Oder ich „sehe etwas ein“, wenn ich überzeugt worden bin. Wir können also verstehen, dass wir uns auf Bilder, oder sogar unsere Augen, immer weniger verlassen werden können.

© von Dietrich Dube

Wo finde ich visual open AI?

Hier geht es zu einigen Adressen

Der Name bildet ein Kofferwort aus dem kleinen animierten Roboter Wall-E aus dem gleichnamigen Film und dem spanischen Surrealisten Salvador Dalí. Das Programm nutzt künstliche neuronale Netzwerke, ⁣um Wörter als Input in Anordnungen von Pixeln als Output zu transferieren.

Midjourney wurde von David Holz, dem Mitbegründer von Leap Motion, gegründet. Die offene Beta-Phase begann am 12. Juli 2022. Am 14. März 2022 startete der Discord-Server mit der Aufforderung, qualitativ hochwertige Fotos auf Twitter/Reddit zu posten, um das System zu trainieren.

Stable Diffusion ist ein kostenloses Deep-Learning-Modell für die Text-Bild-Erkennung, das 2022 veröffentlicht wurde. Es wird in erster Linie verwendet, um detaillierte Bilder auf der Grundlage von Textbeschreibungen zu generieren, kann aber auch für andere Aufgaben wie Inpainting, Outpainting und die Generierung von Bild-zu-Bild-Übersetzungen auf der Grundlage einer Textaufforderung verwendet werden.

Was sagen jetzt die dazu?