Przejdź do treści

Narzędzia

Przez sześć miesięcy pracowałem z wieloma systemami AI: od dużych modeli komercyjnych, przez polskie modele językowe, po małe rozwiązania open-source. Większość pracy twórczej oparłem na modelach z rodziny Claude — Opus do pogłębionych konwersacji, Sonnet do szybszej iteracji. Wybór nie wynikał z systematycznego pomiaru parametrów technicznych — zadecydowało subiektywne odczucie spójności estetycznej i płynności w prowadzeniu narracji.

Porównanie modeli

ModelProducentDo czego się nadajeObserwacje z procesuKosztEnergia*
Claude OpusAnthropicPogłębione konwersacje, eksploracja tekstu, pisanie scenŁapie niuanse, oddaje decyzje — "Który z tych tropów Cię interesuje?"~$20/mies. lub API0.000220 kWh
Claude SonnetAnthropicSzybsza iteracja, korekty, wariantySzybszy, tańszy. Do wielu iteracji, nie głębi pojedynczej odpowiedzi.~$20/mies. lub API0.000022 kWh
GPT-5.2OpenAIOgólna praca dramaturgiczna, wariantyZamyka odpowiedź bez otwarcia na kontynuację. Sprawny, mniej skłonny do oddawania decyzji.~$20/mies. lub APIbrak danych
Gemini ProGoogleEncyklopedyczne mapowanie, bibliografiaNajdłuższe odpowiedzi. Encyklopedyczny — dobry do eksploracji, mniej do pisania.Darmowy tier / API0.002598 kWh
Gemini FlashGoogleSzybkie, lekkie zadania, brainstormingSzybki, lekki. Nie do pogłębionej pracy.Darmowy tier / APIniższe niż Pro
Mistral LargeMistralOgólna praca dramaturgicznaPoprawny dyskurs, pewna neutralność i generyczność.APIbrak danych
Bielik 11BSpeakLeashPraca w języku polskimNienaganna polszczyzna, bez anglicyzmów. Wiedza o Burzy powierzchowna.Open-source / lokalniezależne od sprzętu
PLLuM 12BPW i in.Praca w języku polskimNienaganna polszczyzna. Zahalucynował strukturę konwersacji.Open-source / lokalniezależne od sprzętu
Llama 3.2-3BMetaProduktywna dziwność, inspiracjaQuasi-język jako inspiracja dla sceny pogody Ariela.Open-source / lokalnieminimalne

*Pomiar: 2025, biblioteki EcoLogits i CodeCarbon. Wartości orientacyjne — zależą od długości promptu i odpowiedzi.

Obserwacje z porównywania

Równolegle z pracą twórczą zbudowałem system testowy wysyłający te same prompty do wielu modeli przez API, rejestrujący odpowiedzi i metadane. Ślad węglowy mierzyłem bibliotekami EcoLogits i CodeCarbon. Celem nie był ścisły benchmark — chodziło o zobaczenie, jak ten sam impuls dramaturgiczny załamuje się w różnych maszynach.

Konwergencja

Najbardziej uderzający wynik: homogeniczność. Na prompt o to, dlaczego Burza jest dobrym wyborem do współczesnej adaptacji, pięć modeli wygenerowało niemal identyczne zestawienia — kolonializm, magia jako metafora technologii, metateatralność, dylemat przebaczenia, ekologia. Zmieniała się warstwa leksykalna, schemat pojęciowy pozostawał wspólny:

Claude Sonnet:Kolonializm i wyzysk — relacja Prospero-Kaliban doskonale rezonuje z debatą postkolonialną
GPT-5.2:o kolonializmie i wykluczeniu (Kaliban), oraz o wolności i negocjowaniu własnej tożsamości
Gemini Pro:Relacja Prospera z Kalibanem to idealny punkt wyjścia do dyskusji o imperializmie, wyzysku, rasizmie
Mistral Large:Postać Kalibana — symbol uciskanego "Innego" (kolonializm, migracje, ekologia) — daje pole do politycznej interpretacji

Pięć modeli, pięć wersji tego samego kompendium.

Różnice

Zróżnicowanie dotyczyło nie interpretacji, lecz sposobu komunikowania. Claude Opus jako jedyny regularnie oddawał decyzję z powrotem. GPT-5.2 zamykał odpowiedź bez otwarcia na kontynuację. Gemini produkował najdłuższe odpowiedzi encyklopedyczne. Mistral Large operował poprawnym dyskursem, ale zachowywał generyczną neutralność.

Modele polskie

Niezaprzeczalny atut: polszczyzna bez anglicyzmów składniowych, które zdarzały się nawet Claude'owi. Wiedza o Burzy okazała się jednak powierzchowna.

Bielik 11B

Bielik na ten sam prompt:

Dramat porusza uniwersalne i ponadczasowe tematy, takie jak miłość, zazdrość, moc, władza i natura ludzka

Katalog ogólników pasujący do dowolnej sztuki dramatycznej — bez Kalibana, kolonializmu, metateatralności. Model operował na abstrakcyjnym wzorcu „sztuki szekspirowskiej”, nie na konkretnym tekście.

PLLuM 12B

PLLuM wygenerował jeszcze bardziej wymowny rezultat — zamiast odpowiedzi wyprodukował fałszywą wieloturową konwersację, wymyślając pytanie użytkowniczki („Czy powinnam włączyć elementy science fiction do tego tekstu?”) i samodzielnie na nie odpowiedział. Halucynacja dotyczyła nie treści, lecz samej struktury interakcji — model performował rozmowę, która w rzeczywistości nie miała miejsca.

Oba systemy okazały się niewystarczające do zniuansowanej pracy literackiej, co wydaje się potwierdzać hipotezę, że użyteczność narzędzia zależy od nasycenia danych treningowych konkretnym kontekstem kulturowym. Jakość współpracy z AI zależy od geografii.

Małe modele

Najbardziej zaskakującego materiału dostarczyły systemy najmniejsze.

Llama 3.2-3B

Prospero: Powści, w odkażie jaśności, Jeszcze nсокiej sygnaturze, Zapada, w nieba, na dłoni, Tchórzostwo, w jakiej wczoraj.

Tekst zawieszony między wadliwym tłumaczeniem a afazją — struktura naśladująca składnię językową, lecz pozbawiona spójnej semantyki.

SmolLM3-3B

Wpadł w pętlę, ponad sto razy powtarzając słowo „ostatecznego”.

Nebius/Omni

Wygenerował hybrydę Burzy z Hamletem, w której Ophelia, Polonius i zmyślona „Opolqwna Ofelia” współistnieli na wyspie Prospera.

Jak to wykorzystać

Większość tego materiału była bezużyteczna, jednak same pęknięcia systemu zyskały wartość dramaturgiczną. Afazja małych modeli i ich pewne siebie raporty z nieistniejących tekstów stały się inspiracją dla sceny prognozy pogody Ariela — monologu bytu, który nie rozumie własnego komunikatu, ale wykonuje zadanie z gracją zawieszoną między pozorną kompetencją a kompletną halucynacją.

Nie zamiast dużych modeli, obok nich. Duże modele zbiegają do zachowawczego konsensusu; małe łamią reguły — i czasem to pęknięcie jest dokładnie tym, czego potrzebuje tekst.

Wniosek: gradient — dobór modelu do fazy pracy to decyzja jednocześnie estetyczna i ekologiczna. Eksploracja nie wymaga modelu frontier. Pogłębiona praca nad sceną — tak. Produktywna dziwność wymaga modelu, który się rozpada. Nie ma jednego najlepszego narzędzia — jest dobór narzędzia do momentu procesu.

Aspekt ekologiczny

ModelZużycie energii / prompt*Uwagi
Claude Sonnet0.000022 kWhBazowa wartość referencyjna
Claude Opus~10× SonnetZnacząco więcej niż Sonnet
Gemini Pro0.002598 kWhOd kilkudziesięciu do stu razy więcej niż Claude Sonnet
GPT-5.20.000000 kWhOpenAI nie udostępnia danych
Bielik / PLLuMzależne od sprzętuWolniejsze na konsumenckim sprzęcie, ale w pełni transparentne
Llama 3.2-3BminimalneMały model, niskie zużycie

*Pomiar: 2025, biblioteki EcoLogits i CodeCarbon. Dane orientacyjne.

Problem transparentności

GPT-5.2 raportował zużycie zerowe — bo OpenAI nie udostępniało danych. Odmowa przejrzystości to nie brak kosztu — to brak informacji o koszcie.

Paradoks

Różnice energetyczne nie przekładają się proporcjonalnie na różnice jakościowe. Gemini Pro pochłaniał wielokrotnie więcej energii niż Claude Sonnet, ale nie dawał proporcjonalnie lepszego tekstu. Większa moc obliczeniowa nie oznacza automatycznie lepszych efektów artystycznych.

Narzędzia do pomiaru

EcoLogits — biblioteka Pythona mierząca zużycie energii wywołań API. CodeCarbon — pomiar śladu węglowego uruchomień lokalnych. Oba open-source, oba wymagają minimalnej konfiguracji technicznej.