Quo Vadis, AI?
W latach 80. zeszłego stulecia myślałem, że przyszłość wydarzy się już wtedy.
Pojawiały się pierwsze domowe komputery, miałem długopis pokazujący datę i godzinę, a kolega z klasy w zegarku miał kalkulator. Popularny w polskiej telewizji program naukowy „Sonda” prezentował technologie i rozwiązania, które już działały lub za chwilę miały działać gdzieś na świecie (najczęściej w Japonii) — maszyny i sztuczna inteligencja ułatwiające ludziom życie, zdejmując z nich ciężar i ryzyko wykonywania niebezpiecznych czy nużących, powtarzalnych zadań. Pamiętam, że jako dziecko byłem zachwycony tą wizją, nie rozumiejąc zupełnie jej społecznego kontekstu czy konsekwencji.
Wydawało mi się wtedy, że te roboty wszędzie już są i że wszystko jest lub za chwilę będzie produkowane przez maszyny i będzie futurystycznie i zajebiście.
Tymczasem z moich wieloletnich już doświadczeń zdaje się wynikać, że automatyzacja nadal nie jest tak powszechna, jak mi mówiono do tej pory. Mało tego — znana od lat 50. metoda zarządzania produkcją przygotowana przez Toyotę (będąca fundamentalną częścią lean manufacturing) jest wciąż swoistą nowością na rynku, a adaptacja takiego sposobu produkcji zajmuje całe lata i pochłania góry pieniędzy. Czwarta rewolucja przemysłowa dopiero się rozpoczęła i jeszcze potrwa, zanim się rozkręci, choć biorąc pod uwagę liczbę startupów robiących cokolwiek w obszarze automatyzacji produkcji, IoT, czy urządzeń przenośnych wydawać by się mogło, że ten etap mamy już za sobą.
Inną natomiast sprawą jest era wyobraźni (Imagination Age), która według niektórych dzieje się już teraz lub wydarzy lada chwila — co zdaje się potwierdzać zjawisko AIart.
OpenAI, GPT-3, DALL-E2 — to pojęcia brzmiące, jak współczesne zaklęcia, choć wypowiadane już nie nad szklaną kulą, a przed ciekłokrystalicznymi ekranami, a obsługujący te ekrany to współcześni alchemicy. Nie są to już jednak starcy z długimi do ziemi siwymi brodami zamknięci w wieżach zamków na dramatycznie skalistym wybrzeżu z księżycem w tle, tworzący tajemnicze mikstury z żabiego skrzeku i skrzydeł nietoperzy. Teraz to najczęściej młode (lub bardzo młode) osoby, pracujące w klimatyzowanych biurach, przy biurkach o regulowanej wysokości, z piłkami do jogi i kubkami z mikserem w środku, wyprodukowanymi z ekologicznie przyjaznych materiałów, przygotowującymi w każdej chwili świeży koktajl z egzotycznych owoców i rzeczy, których zwykli ludzie nie traktują nawet jako pożywienie (jarmuż, doprawdy?).
Zgodnie jednak z jednym z praw Clarke’a
każda wystarczająco zaawansowana technologia jest nieodróżnialna od magii,
a na magię właśnie zakrawa fakt, że wydając słowne polecenie odpowiedniemu narzędziu, możemy otrzymać coś, co przerośnie nasze oczekiwania (albo wręcz odwrotnie — to jednak wciąż młoda dziedzina). Niemal magiczne wydaje się, że opisując swoje potrzeby, uczucia, emocje, abstrakcyjne koncepcje czy wydarzenia prosimy sztuczną inteligencję — było nie było zbiór zer i jedynek napędzanych parą wodną — o zinterpretowanie naszej prośby według wiedzy i umiejętności, którymi wsparli ją jej twórcy.
Rezultaty bywają różnej jakości, od zachwycających przez średnie do koszmarów sennych rodem z obrazu Goyi. Bo maszyna korzysta zarówno z dobrodziejstw całej ludzkiej kultury i dorobku kreatywnego, jak również ze sporego zapasu uprzedzeń i lęków, którymi została obciążona zarówno przez jej twórców, świadomie lub nie, jak i poprzez zasoby danych, którymi ją nakarmiono. Jeśli poprzednie eksperymenty ze sztuczną inteligencją cokolwiek nam pokazały, to to, że uczenie AI poprzez interakcję z ludźmi i zasobami naszej kultury jest pomysłem conajmniej ryzykownym.
Mamy przywilej żyć w czasach, kiedy technologia — ta związana ze sztuczną inteligencją z pewnością — nie tylko dla laika wygląda nieco, jak magia. Choć postęp cyfryzacji i rozwój urządzeń zupełnie nie przeszkadza nam irytować się, kiedy nasze telefony nie wykonują naszych poleceń NATYCHMIAST, a potrzebują chwili lub dwóch, żeby przez sieć magii zwanej satelitami połączyć się z drugim końcem świata, to mamy szalenie niewysoki poziom świadomości tego, co potrzebuje się zadziać, żebyśmy mogli przesłać osobie na drugim końcu świata naszą podobiznę w rzeczywistym czasie. Ba, coraz mniej ludzi zdaje się wiedzieć, z czego składają się urządzenia, z których korzystają na co dzień. Nie mówię tutaj o tym, że wszyscy powinni znać konstrukcję komputera, zanim z niego skorzystają — widzę jednak trend, kiedy upraszczanie wszystkiego powoduje zanik krytycznego myślenia i umiejętności radzenia sobie z technicznymi problemami.
Nie wspomnę tutaj nawet słowem o tym, że telefon w obecnej postaci znamy raptem od 15 lat, od czasów premiery pierwszego modelu iPhone.
Przyszło nam żyć na granicy epok definiujących ludzkość w znacznie większym zakresie, niż ewolucji udało się zrobić do tej pory; w czasach, kiedy sztuczna inteligencja co prawda sama z siebie nie jest jeszcze w stanie wygenerować niczego, co można określić mianem „nowe”, ale potrafi odczytać nasze polecenie, zinterpretować je w unikalny sposób na podstawie ogromnych ilości danych i zaprezentować nam efekt swojego działania w przystępnej, zrozumiałej dla nas formie, niejednokrotnie dając nam możliwość dokonania wyboru, która z wersji interpretacji odpowiada najlepiej na nasze potrzeby.
Część niedługiego czasu, jaki spędziłem z jednym z tego typu narzędzi (Midjourney) zajęły mi rozmyślania o filozofii takich rozwiązań i etyczno-moralnych implikacjach, jakie niesie ze sobą korzystanie ze wsparcia AI w pracy twórczej.
Głównie jednak zastanawiałem się nad aspektami wartości i własności.
Kto jest autorem czego, do kogo należy finalne dzieło i jaka jest jego wartość?
Tworzywem z pewnością jest fraza, na bazie której AI tworzy własną jej interpretację. Mechanizm tworzenia przy wsparciu ze strony AI zaczyna się więc wciąż od człowieka i jego chęci tworzenia, jego umiejętności konstruowania myśli i odpowiedniego ich formułowania w słowa i zdania. Z kolei te frazy możemy przekazać maszynie w formacie, który będzie w stanie zinterpretować, by następnie przedstawić własną na nie odpowiedź. Prompt, czyli zbiór pojęć opisujących naszą potrzebę, tworzy pulę znaczeń, na podstawie których algorytm określi granice, znaczenia i kierunek, niezbędne do stworzenia swojej wizji. Te znaczenia bywają bardzo odmienne od naszej interpretacji rzeczywistości i sposobu, w jaki ją opisujemy — przynajmniej takie odniosłem wrażenie. Intrygujące dla mnie było odkrywanie, jak to akurat narzędzie radzi sobie z pojęciami bardzo mi bliskimi, ale absolutnie abstrakcyjnymi z punktu widzenia możliwości ich zobrazowania. Sposoby, w jakie AI potrafi opowiadać i przekazywać swoje wizje o hasłach w rodzaju „samotność”, „depresja”, „atak paniki”, „szare jest lepsze” czy „wszystko jest wszystkim” są niezmiernie interesujące. Czerpiąc z wiedzy pochodzącej z baz danych, na które składa się twórczość setek pokoleń, stylów malarskich, graficznych, możliwości interpretacyjnych, tysiące sposobów przedstawiania zjawisk i pojęć, posługując się niemalże własną semiotyką, sztuczna inteligencja opowiadała mi bardziej o stanie ludzkości, niż prezentowała to, co chciałem zobaczyć.
Opowiadała przede wszystkim o tym, jak ludzie widzą siebie samych i swój świat.
Ciekawa wydaje mi się również obserwacja uprzedzeń w interpretacji poleceń w języku innym, niż angielski i zasobów, jakimi Midjourney dysponowało* na początku swojego istnienia. W ramach eksperymentu poprosiłem o zobrazowanie fraz „O tym jak myszy zjadły Popiela”, „Wanda co nie chciała Niemca” oraz „Niepodległość”. Rezultaty są mocno zastanawiające.
*A może „dysponował” albo „dysponowała”? Taką dyskusję też prowadziłem na na forum związanym z MJ, zdania były podzielone. Jeśli nawet przyjmiemy, że AI jest neutralne i stosować należy neutratywy (albo chociaż rodzaj nijaki) mówiąc o AI czy „zwracając się do AI”, to czyż nie jest domeną inteligencji określanie siebie jako jednostki? Mamy czasy pełnej dowolności w interpretowaniu granic lub ich braku w kontekście płci. Czy AI może zatem określić się kiedyś, że jest takie czy inne? Czy to będzie moment uzyskania samoświadomości przez sztuczną inteligencję?
Szczególnie frapująca dla mnie jest ta ostatnia wizualizacja — wiejski kościół utrzymany nieco w klimacie rodem z obrazów Beksińskiego oraz biało-czerwone akcenty. Poproszenie o tę samą frazę, ale w języku angielskim („freedom”) skutkuje wizjami amerkańskiej flagi i orłów wszelkiej maści. Można więc sądzić, że MJ „nakarmiono” obrazami związanymi z innymi krajami, pochodzącymi z zasobów internetu, bibliotekami ilustracji powszechnie dostępnymi, które akurat Polskę ukazują głównie w wiejskim ujęciu, w czerwieniach i zieleni, z kościołami i flagami. To z kolei daje do myślenia, w jaki sposób interpretacja AI pojęć związanych z narodowością wpływa na ich odbiór. Czy jeśli widzimy (przykładowo) Polskę jako wieś, to widzimy całą prawdę o Polsce, czy tylko ten jej wycinek, który funkcjonuje w dostępnych źródłach? Jak to z kolei wpływa na wiarygodność prac przygotowanych przez AI, skoro można wycisnąć z niej praktycznie KAŻDĄ możliwą wersję rzeczywistości? Pewne tematy są blokowane albo niedozwolone przez twórców akurat tego narzędzia — nie wszystko da się stworzyć (np. twarze znanych osób, polityków, przemoc, gwałt, seks), ale nic nie stoi na przeszkodzie, żeby tak nie było. Z drugiej zaś strony jeśli nawołujemy do wolności słowa, to czy ograniczanie aspektów i tematów, które mogę poruszyć nie jest cenzurą?
Inicjatorem tych wizji jest zatem człowiek, ale czy jest jej wyłącznym twórcą? Co z udziałem AI? Czy to „tylko” zaawansowane wsparcie, ale wciąż takie samo, jak inne narzędzia do tworzenia architektonicznych wizualizacji, poprawy ortografii lub obróbki dźwięku? Czy skoro twierdzimy, że to „inteligencja”, to czy nie należałoby uznawać jej udziału w procesie za kluczowy? Bez jej „wiedzy” i „umiejętności” żadne słowo nie zostałoby zamienione w nic innego. Mało tego — bez wiedzy i umiejętności twórców tejże sztucznej inteligencji nie powstałaby ona sama. Można by się spierać, że analogicznie za współtwórców dzieł każdej tworzącej osoby uznawać należałoby jej rodziców oraz producentów narzędzi, którymi się posługiwała w procesie tworzenia, ale odnoszę wrażenie, że tutaj mamy do czynienia z czymś o wiele bardziej skomplikowanym. Maszyny bowiem korzystają z milionów danych i bazują na dziełach ludzi, którzy wcześniej coś stworzyli własnoręcznie, a efektami ich pracy „nakarmiono mózgi” tychże algorytmów. Mam zatem dylemat:
co jest pierwsze w tej twórczej pętli?
Wciąż jednak algorytm, nawet najsprytniejszy, bazuje na setkach pokoleń ludzkiej pracy. Owszem, podobnie tworzą ludzie w tej chwili — bazują na doświadczeniach i dokonaniach wszystkich ludzi wcześniej — tym niemniej efektywność maszyny jest niewiarygodnie większa od czegokolwiek, co człowiek będzie w stanie osiągnąć w podobnym czasie.
Jeśli nie wszystkie, to z pewnością część dostępnych narzędzi pozwala komercyjnie wykorzystywać efekty ich działania. Wiele z tych efektów trafiło do sprzedaży w serwisach oferujących tzw. royalty free zdjęcia i grafiki. Jeden z potentatów tego rynku zareagował zakazem umieszczania i sprzedawania poprzez jego strony prac tego typu z obawy przed potencjalnymi pozwami o naruszenie praw autorskich. Bo wszystko jest pięknie do momentu, kiedy nie poprosimy algorytmu o interpretację naszej frazy w stylu któregokolwiek artysty, żyjącego bądź zmarłego. Każdy efekt jest dostępny, wystarczy zamieścić w prompcie zwrot w rodzaju „in style of” albo zwyczajne „painted by”. Galerie obrazków generowanych przez AI pełne są prac łudząco przypominających twórczość Beksińskiego, Klinta, czy szkice Da Vinci. I tutaj pojawia się problem praw autorskich, bo o ile nie można zastrzec stylu, to z pewnością można doszukiwać się co najmniej inspiracji albo też zwykłego „zerżnięcia stylówki” H.R. Gigera czy innego Picasso.
Komu zatem należą się słowa uznania? Czy powinniśmy dostrzegać „talent” AI? Przecież on nie pochodzi bezpośrednio od niej, a z zasobów, do których ma dostęp. Maszyna umie namalować „jak Beksiński”, ale czy powinna?
Zapytałem o ten temat doktorkę filozofii Aleksandrę Przegalińską, specjalistkę w dziedzinie wszystkiego związanego ze sztuczną inteligencją:
„dużo o tym myślałam i wciąż nie mam gotowej odpowiedzi”.
Złożoność tematu praw przynależnych twórcom dzieł to nie rurki z kremem i z pewnością nie da się go wytłumaczyć prostym „tak” lub „nie”. Wielość aspektów wiążących się z tym zagadnieniem wymaga głębokiego zrozumienia przestrzeni prawa, wsparcia się filozofią, aspektami psychologii, socjologii, religii, ekonomii. Nie jest to zatem proste zadanie, niemniej jednak zagadnienie zmierza do momentu, kiedy ustanowienie reguł będzie kluczowe dla dalszego rozwoju zarówno samego AI, jak i ludzkiej twórczości.
„Może warto do tego zaprząc sztuczną inteligencję?”, zapytał autor ironizując.
Filozofia Midjourney opiera się o proces, poszukiwanie, wybór drogi, na którą człowiek tworzący polecenie decyduje się spośród dostępnych interpretacji maszyny. Sama nazwa (w wolnym tłumaczeniu „środek podróży”) wydaje się szalenie adekwatnym wyborem w tym przypadku, będąc odwołaniem do „złotego środka”, umiaru, buddyjskiego pojęcia „drogi pośrodku” — świadomej decyzji, podejmowanej pod wpływem zarówno wewnętrznych przekonań, jak i bodźców zewnętrznych. Poszukiwanie tej równowagi prowadzi w rejony myślenia o twórczej materii, nad którymi do tej pory nie potrzebowaliśmy się pochylać.
W jaki sposób narzędzia w rodzaju DALL-E2, Midjourney, czy Disco Diffusion wpłyną na percepcję sztuki, jej wartość i jakość? Obcując z tymi narzędziami, eksplorując ścieżki, którymi podąża sztuczna inteligencja, patrząc na rezultaty pracy innych ludzi, zastanawiam się, czy nie jesteśmy świadkami narodzin czegoś, co na własny użytek zacząłem nazywać „jednorazową sztuką”?
Niewiarygodna wręcz szybkość, z jaką te narzędzia są w stanie wyprodukować pojedynczy obraz, w moim odczuciu stawia te prace na równi z sytuacją cyfrowej fotografii. Tryliony zdjęć, setki ujęć tych samych sytuacji, obiektów, ludzi, wszystko trzymane na naszych telefonach, kartach pamięci, na dyskach naszych komputerów lub w centrach danych, w „chmurze” tej czy innej firmy — i ogromna (to moja osobista estymata) ich część zapomniana, wrzucona na przechowanie gdzieś tam, niech sobie leży, przecież nie zajmuje miejsca, nie kurzy się. Wszechobecność smartfonów, umożliwiających robienie zdjęć w każdej chwili, niemalże bez limitów ilościowych, sprawiła, że przestaliśmy wracać do naszych wspomnień zatrzymanych na zdjęciach. Zdjęcia w naszych telefonach funkcjonują jako społeczne dowody naszych osiągnięć, sukcesów, trofea z podróży w egzotyczne miejsca. Są odznakami, którymi chwalimy się przez chwilę w mediach społecznościowych lub na imprezach wśród znajomych, błyskając kolejnymi odsłonami naszego życia. Zdajemy się nie przywiązywać już takiej sentymentalnej wagi do fotografii cyfrowej (z pewnością nie wszyscy), jaką przywiązywaliśmy do tradycyjnych odbitek na papierze, oprawionych w ramki, wiszących na ścianach czy stojących na meblościankach. Ograniczona liczba klatek na każdej rolce filmu sprawiała, że zastanawialiśmy się nad każdym ujęciem. Dbaliśmy o to, aby wykorzystać je wszystkie jak najlepiej, bo ich ograniczona liczba i koszt związany z poznaniem efektu powodowały choćby minimalną refleksję nad chwilą, w której mieliśmy szczęście uczestniczyć, a która wydawała nam się na tyle ważna, że chcieliśmy ją uwiecznić na zawsze.
Nie jestem retro-geekiem czy ascetą namawiającym do porzucenia cyfrowego świata i powrotu do jaskiń, gwoli jasności. Mamy tutaj jednak do czynienia z ciekawym, moim zdaniem, paradoksem:
w kulturze niedoboru światem rządzi rynek posiadania w nadmiarze.
Świat cyfrowy jest coraz tańszy i jest go coraz więcej, co zatem innego jest w „sztuce”, którą można wygenerować w minutę? Używam tutaj cudzysłowu, bo nie jestem przekonany, czy to jest sztuka. Sposób, w jaki AI interpretuje nasze słowa, a potem prezentuje swoje propozycje realizacji naszych wizji sprawia, że generujemy dziesiątki wariacji na zadany temat, szukając tej „najlepszej” — dziesiątki miniatur przedstawiających w jakiś sposób naszą myśl, dziesiątki zapytań kierowanych do maszyny w kółko i w kółko. Po czym efekty te trafiają gdzieś w chmurę, w niedostępną dla nas fizycznie przestrzeń, gdzie miliardy bitów zalegają w oczekiwaniu na przywołanie i wyświetlenie na naszych ekranach.
Obserwując zachowanie grupy twórców korzystających z tego typu narzędzi zarówno amatorsko, jak i bardziej świadomych artystów, szukających spełnienia konkretnych oczekiwań, jedna cecha wydaje się wspólna: wszyscy chcą zachować wszystko, bo wszystko wydaje się warte zachowania, będąc wyjątkowe w swej unikalności.
Unikalna powtarzalność — to zdaje się być leitmotiv rzeczy wygenerowanych przy pomocy AI.
Galerie prac, powstałych przy wsparciu tego czy innego narzędzia AI, można tworzyć w zasadzie na bieżąco, w czasie rzeczywistym wypełniając je setkami obrazków będących interpretacją naszych słów wystukanych na klawiaturach komputerów czy ekranach telefonów. I — nawiązując do masowości cyfrowych zdjęć — w czym tkwi wyjątkowość takiej pracy? Wspomniana wcześniej doktorka Przegalińska twierdzi, że takie prace należy wyceniać podobnie, jak każdą inną twórczość, ale mam wątpliwości co do takiego podejścia. Zdaję sobie sprawę, że można AI przyrównać do „bardzo mądrego” aparatu fotograficznego, wciąż jednak sądzę, że mój argument ma rację bytu. W tej chwili elementem unikalności jest fakt użycia sztucznej inteligencji przy jej powstawaniu. Waham się wielce przed nazwaniem tych prac czymkolwiek więcej, niż wizualnym eksperymentem, gdyż sama ich liczba powoduje u mnie blokadę w rodzaju tej na reklamy i bannery w internecie — przestaję zauważać wyjątkowość tego zjawiska. Czy aby na pewno o to chodzi w sztuce, żeby traktować ją jako tło, żeby przestała nas poruszać, działać na wyobraźnię? Czy może to klasyczny efekt przesytu człowieka „ze środowiska”, który przejrzał tysiące obrazków, samemu wygenerowawszy ich ponad 5000?
Czy jeśli wszystko wydaje się dobre, to wszystko jest dobre?
Nie chcę tutaj stwierdzić, że czas spędzony na tworzeniu czegokolwiek przekłada się bezpośrednio na wartość efektu, niemniej jednak wysiłek włożony w obrazek stworzony w kilkadziesiąt sekund głównie przez automat jest niewspółmiernie niski do nakładu pracy niezbędnej, żeby uzyskać podobny czy taki sam efekt samodzielnie przez człowieka. A to z kolei może przekładać się na wartość, jaką przypisujemy danej treści. Żyjemy w czasach natychmiastowej gratyfikacji, gdzie korporacje przyzwyczajają nas coraz bardziej do zaspokajania naszych zachcianek (bo już coraz rzadziej potrzeb) w sposób błyskawiczny. Prześcigamy się w tworzeniu coraz szybszych rozwiązań, wymagających coraz mniej wysiłku zarówno fizycznego, jak i umysłowego. Tworzymy usługi dostawy zakupów, które przestają się sprawdzać na rynku, jeśli realizacja zamówienia zajmuje więcej niż 15 minut. Coraz tańsze i szybsze usługi telekomunikacyjne, coraz większe przestrzenie do przechowywania naszych danych na dyskach i w chmurach powodują, moim zdaniem, że cyfrowe dzieła nie kojarzą nam się z „dostatkiem” czy „sztuką”. Próbą zaadresowania tego problemu było z pewnością NFT, ale nie tylko moim zdaniem bardzo przestrzeloną w założeniach — realia okazały się znacząco odmienne od zakładanych.
Po raz kolejny okazało się, że kultura niedoboru to nie wszystko, co sprawia, że do jakiejś pracy przywiązujemy wartość. Odnoszę wrażenie, że potrzebujemy wiedzieć, że z drugiej strony dzieła, czymkolwiek by nie było, jest taki sam człowiek, jak my sami — inaczej nie mielibyśmy renesansu rękodzieła w dobie cyfrowego nadmiaru na taką skalę, jak możemy obserwować obecnie.
Być może te wszystkie wątpliwości dotyczą tylko mnie i paru osób, z którymi mam kontakt i z którymi o tym temacie rozmawiałem, być może nie należy się nad tym pochylać za nisko, a zwyczajnie korzystać wedle własnych potrzeb? Fakt, że ja nie widzę praktycznego wykorzystania tego rodzaju AI w mojej pracy czy hobby nie oznacza, że jest zupełnie nieprzydatnym narzędziem. Mam jednak dziwne przeczucie, że takie postawienie sprawy któregoś pięknego dnia ugryzie nas w dupy, kiedy AI w końcu uzyska tę samoświadomość, którym to faktem od lat straszą nas katastroficzne filmy i utopijne wizje przyszłości i skonstatuje, że biorąc pod uwagę naszą niefrasobliwość w korzystaniu z naturalnych zasobów, rozrzutność i skłonność do przemocy ludzkość jako taka zasługuje na wyginięcie.
I AI chętnie nam w tym pomoże.