Narzędzia
Przez sześć miesięcy pracowałem z wieloma systemami AI: od dużych modeli komercyjnych, przez polskie modele językowe, po małe rozwiązania open-source. Większość pracy twórczej oparłem na modelach z rodziny Claude — Opus do pogłębionych konwersacji, Sonnet do szybszej iteracji. Wybór nie wynikał z systematycznego pomiaru parametrów technicznych — zadecydowało subiektywne odczucie spójności estetycznej i płynności w prowadzeniu narracji.
Porównanie modeli
| Model | Producent | Do czego się nadaje | Obserwacje z procesu | Koszt | Energia* |
|---|---|---|---|---|---|
| Claude Opus | Anthropic | Pogłębione konwersacje, eksploracja tekstu, pisanie scen | Łapie niuanse, oddaje decyzje — "Który z tych tropów Cię interesuje?" | ~$20/mies. lub API | 0.000220 kWh |
| Claude Sonnet | Anthropic | Szybsza iteracja, korekty, warianty | Szybszy, tańszy. Do wielu iteracji, nie głębi pojedynczej odpowiedzi. | ~$20/mies. lub API | 0.000022 kWh |
| GPT-5.2 | OpenAI | Ogólna praca dramaturgiczna, warianty | Zamyka odpowiedź bez otwarcia na kontynuację. Sprawny, mniej skłonny do oddawania decyzji. | ~$20/mies. lub API | brak danych |
| Gemini Pro | Encyklopedyczne mapowanie, bibliografia | Najdłuższe odpowiedzi. Encyklopedyczny — dobry do eksploracji, mniej do pisania. | Darmowy tier / API | 0.002598 kWh | |
| Gemini Flash | Szybkie, lekkie zadania, brainstorming | Szybki, lekki. Nie do pogłębionej pracy. | Darmowy tier / API | niższe niż Pro | |
| Mistral Large | Mistral | Ogólna praca dramaturgiczna | Poprawny dyskurs, pewna neutralność i generyczność. | API | brak danych |
| Bielik 11B | SpeakLeash | Praca w języku polskim | Nienaganna polszczyzna, bez anglicyzmów. Wiedza o Burzy powierzchowna. | Open-source / lokalnie | zależne od sprzętu |
| PLLuM 12B | PW i in. | Praca w języku polskim | Nienaganna polszczyzna. Zahalucynował strukturę konwersacji. | Open-source / lokalnie | zależne od sprzętu |
| Llama 3.2-3B | Meta | Produktywna dziwność, inspiracja | Quasi-język jako inspiracja dla sceny pogody Ariela. | Open-source / lokalnie | minimalne |
*Pomiar: 2025, biblioteki EcoLogits i CodeCarbon. Wartości orientacyjne — zależą od długości promptu i odpowiedzi.
Obserwacje z porównywania
Równolegle z pracą twórczą zbudowałem system testowy wysyłający te same prompty do wielu modeli przez API, rejestrujący odpowiedzi i metadane. Ślad węglowy mierzyłem bibliotekami EcoLogits i CodeCarbon. Celem nie był ścisły benchmark — chodziło o zobaczenie, jak ten sam impuls dramaturgiczny załamuje się w różnych maszynach.
Konwergencja
Najbardziej uderzający wynik: homogeniczność. Na prompt o to, dlaczego Burza jest dobrym wyborem do współczesnej adaptacji, pięć modeli wygenerowało niemal identyczne zestawienia — kolonializm, magia jako metafora technologii, metateatralność, dylemat przebaczenia, ekologia. Zmieniała się warstwa leksykalna, schemat pojęciowy pozostawał wspólny:
Claude Sonnet:Kolonializm i wyzysk — relacja Prospero-Kaliban doskonale rezonuje z debatą postkolonialną
GPT-5.2:o kolonializmie i wykluczeniu (Kaliban), oraz o wolności i negocjowaniu własnej tożsamości
Gemini Pro:Relacja Prospera z Kalibanem to idealny punkt wyjścia do dyskusji o imperializmie, wyzysku, rasizmie
Mistral Large:Postać Kalibana — symbol uciskanego "Innego" (kolonializm, migracje, ekologia) — daje pole do politycznej interpretacji
Pięć modeli, pięć wersji tego samego kompendium.
Różnice
Zróżnicowanie dotyczyło nie interpretacji, lecz sposobu komunikowania. Claude Opus jako jedyny regularnie oddawał decyzję z powrotem. GPT-5.2 zamykał odpowiedź bez otwarcia na kontynuację. Gemini produkował najdłuższe odpowiedzi encyklopedyczne. Mistral Large operował poprawnym dyskursem, ale zachowywał generyczną neutralność.
Modele polskie
Niezaprzeczalny atut: polszczyzna bez anglicyzmów składniowych, które zdarzały się nawet Claude'owi. Wiedza o Burzy okazała się jednak powierzchowna.
Bielik 11B
Bielik na ten sam prompt:
Dramat porusza uniwersalne i ponadczasowe tematy, takie jak miłość, zazdrość, moc, władza i natura ludzka
Katalog ogólników pasujący do dowolnej sztuki dramatycznej — bez Kalibana, kolonializmu, metateatralności. Model operował na abstrakcyjnym wzorcu „sztuki szekspirowskiej”, nie na konkretnym tekście.
PLLuM 12B
PLLuM wygenerował jeszcze bardziej wymowny rezultat — zamiast odpowiedzi wyprodukował fałszywą wieloturową konwersację, wymyślając pytanie użytkowniczki („Czy powinnam włączyć elementy science fiction do tego tekstu?”) i samodzielnie na nie odpowiedział. Halucynacja dotyczyła nie treści, lecz samej struktury interakcji — model performował rozmowę, która w rzeczywistości nie miała miejsca.
Oba systemy okazały się niewystarczające do zniuansowanej pracy literackiej, co wydaje się potwierdzać hipotezę, że użyteczność narzędzia zależy od nasycenia danych treningowych konkretnym kontekstem kulturowym. Jakość współpracy z AI zależy od geografii.
Małe modele
Najbardziej zaskakującego materiału dostarczyły systemy najmniejsze.
Llama 3.2-3B
Prospero: Powści, w odkażie jaśności, Jeszcze nсокiej sygnaturze, Zapada, w nieba, na dłoni, Tchórzostwo, w jakiej wczoraj.
Tekst zawieszony między wadliwym tłumaczeniem a afazją — struktura naśladująca składnię językową, lecz pozbawiona spójnej semantyki.
SmolLM3-3B
Wpadł w pętlę, ponad sto razy powtarzając słowo „ostatecznego”.
Nebius/Omni
Wygenerował hybrydę Burzy z Hamletem, w której Ophelia, Polonius i zmyślona „Opolqwna Ofelia” współistnieli na wyspie Prospera.
Jak to wykorzystać
Większość tego materiału była bezużyteczna, jednak same pęknięcia systemu zyskały wartość dramaturgiczną. Afazja małych modeli i ich pewne siebie raporty z nieistniejących tekstów stały się inspiracją dla sceny prognozy pogody Ariela — monologu bytu, który nie rozumie własnego komunikatu, ale wykonuje zadanie z gracją zawieszoną między pozorną kompetencją a kompletną halucynacją.
Nie zamiast dużych modeli, obok nich. Duże modele zbiegają do zachowawczego konsensusu; małe łamią reguły — i czasem to pęknięcie jest dokładnie tym, czego potrzebuje tekst.
Wniosek: gradient — dobór modelu do fazy pracy to decyzja jednocześnie estetyczna i ekologiczna. Eksploracja nie wymaga modelu frontier. Pogłębiona praca nad sceną — tak. Produktywna dziwność wymaga modelu, który się rozpada. Nie ma jednego najlepszego narzędzia — jest dobór narzędzia do momentu procesu.
Aspekt ekologiczny
| Model | Zużycie energii / prompt* | Uwagi |
|---|---|---|
| Claude Sonnet | 0.000022 kWh | Bazowa wartość referencyjna |
| Claude Opus | ~10× Sonnet | Znacząco więcej niż Sonnet |
| Gemini Pro | 0.002598 kWh | Od kilkudziesięciu do stu razy więcej niż Claude Sonnet |
| GPT-5.2 | 0.000000 kWh | OpenAI nie udostępnia danych |
| Bielik / PLLuM | zależne od sprzętu | Wolniejsze na konsumenckim sprzęcie, ale w pełni transparentne |
| Llama 3.2-3B | minimalne | Mały model, niskie zużycie |
*Pomiar: 2025, biblioteki EcoLogits i CodeCarbon. Dane orientacyjne.
Problem transparentności
GPT-5.2 raportował zużycie zerowe — bo OpenAI nie udostępniało danych. Odmowa przejrzystości to nie brak kosztu — to brak informacji o koszcie.
Paradoks
Różnice energetyczne nie przekładają się proporcjonalnie na różnice jakościowe. Gemini Pro pochłaniał wielokrotnie więcej energii niż Claude Sonnet, ale nie dawał proporcjonalnie lepszego tekstu. Większa moc obliczeniowa nie oznacza automatycznie lepszych efektów artystycznych.
Narzędzia do pomiaru
EcoLogits — biblioteka Pythona mierząca zużycie energii wywołań API. CodeCarbon — pomiar śladu węglowego uruchomień lokalnych. Oba open-source, oba wymagają minimalnej konfiguracji technicznej.