Narzędzia

Przez sześć miesięcy pracowałem z wieloma systemami AI: od dużych modeli komercyjnych, przez polskie modele językowe, po małe rozwiązania open-source. Większość pracy twórczej oparłem na modelach z rodziny Claude — Opus do pogłębionych konwersacji, Sonnet do szybszej iteracji. Wybór nie wynikał z systematycznego pomiaru parametrów technicznych — zadecydowało subiektywne odczucie spójności estetycznej i płynności w prowadzeniu narracji.

Porównanie modeli

Model	Producent	Do czego się nadaje	Obserwacje z procesu	Koszt	Energia*
Claude Opus	Anthropic	Pogłębione konwersacje, eksploracja tekstu, pisanie scen	Łapie niuanse, oddaje decyzje — "Który z tych tropów Cię interesuje?"	~$20/mies. lub API	0.000220 kWh
Claude Sonnet	Anthropic	Szybsza iteracja, korekty, warianty	Szybszy, tańszy. Do wielu iteracji, nie głębi pojedynczej odpowiedzi.	~$20/mies. lub API	0.000022 kWh
GPT-5.2	OpenAI	Ogólna praca dramaturgiczna, warianty	Zamyka odpowiedź bez otwarcia na kontynuację. Sprawny, mniej skłonny do oddawania decyzji.	~$20/mies. lub API	brak danych
Gemini Pro	Google	Encyklopedyczne mapowanie, bibliografia	Najdłuższe odpowiedzi. Encyklopedyczny — dobry do eksploracji, mniej do pisania.	Darmowy tier / API	0.002598 kWh
Gemini Flash	Google	Szybkie, lekkie zadania, brainstorming	Szybki, lekki. Nie do pogłębionej pracy.	Darmowy tier / API	niższe niż Pro
Mistral Large	Mistral	Ogólna praca dramaturgiczna	Poprawny dyskurs, pewna neutralność i generyczność.	API	brak danych
Bielik 11B	SpeakLeash	Praca w języku polskim	Nienaganna polszczyzna, bez anglicyzmów. Wiedza o Burzy powierzchowna.	Open-source / lokalnie	zależne od sprzętu
PLLuM 12B	PW i in.	Praca w języku polskim	Nienaganna polszczyzna. Zahalucynował strukturę konwersacji.	Open-source / lokalnie	zależne od sprzętu
Llama 3.2-3B	Meta	Produktywna dziwność, inspiracja	Quasi-język jako inspiracja dla sceny pogody Ariela.	Open-source / lokalnie	minimalne

*Pomiar: 2025, biblioteki EcoLogits i CodeCarbon. Wartości orientacyjne — zależą od długości promptu i odpowiedzi.

Obserwacje z porównywania

Równolegle z pracą twórczą zbudowałem system testowy wysyłający te same prompty do wielu modeli przez API, rejestrujący odpowiedzi i metadane. Ślad węglowy mierzyłem bibliotekami EcoLogits i CodeCarbon. Celem nie był ścisły benchmark — chodziło o zobaczenie, jak ten sam impuls dramaturgiczny załamuje się w różnych maszynach.

Konwergencja

Najbardziej uderzający wynik: homogeniczność. Na prompt o to, dlaczego Burza jest dobrym wyborem do współczesnej adaptacji, pięć modeli wygenerowało niemal identyczne zestawienia — kolonializm, magia jako metafora technologii, metateatralność, dylemat przebaczenia, ekologia. Zmieniała się warstwa leksykalna, schemat pojęciowy pozostawał wspólny:

Claude Sonnet:Kolonializm i wyzysk — relacja Prospero-Kaliban doskonale rezonuje z debatą postkolonialną

GPT-5.2:o kolonializmie i wykluczeniu (Kaliban), oraz o wolności i negocjowaniu własnej tożsamości

Gemini Pro:Relacja Prospera z Kalibanem to idealny punkt wyjścia do dyskusji o imperializmie, wyzysku, rasizmie

Mistral Large:Postać Kalibana — symbol uciskanego "Innego" (kolonializm, migracje, ekologia) — daje pole do politycznej interpretacji

Pięć modeli, pięć wersji tego samego kompendium.

Różnice

Zróżnicowanie dotyczyło nie interpretacji, lecz sposobu komunikowania. Claude Opus jako jedyny regularnie oddawał decyzję z powrotem. GPT-5.2 zamykał odpowiedź bez otwarcia na kontynuację. Gemini produkował najdłuższe odpowiedzi encyklopedyczne. Mistral Large operował poprawnym dyskursem, ale zachowywał generyczną neutralność.

Modele polskie

Niezaprzeczalny atut: polszczyzna bez anglicyzmów składniowych, które zdarzały się nawet Claude'owi. Wiedza o Burzy okazała się jednak powierzchowna.

Bielik 11B

Bielik na ten sam prompt:

Dramat porusza uniwersalne i ponadczasowe tematy, takie jak miłość, zazdrość, moc, władza i natura ludzka

Katalog ogólników pasujący do dowolnej sztuki dramatycznej — bez Kalibana, kolonializmu, metateatralności. Model operował na abstrakcyjnym wzorcu „sztuki szekspirowskiej”, nie na konkretnym tekście.

PLLuM 12B

PLLuM wygenerował jeszcze bardziej wymowny rezultat — zamiast odpowiedzi wyprodukował fałszywą wieloturową konwersację, wymyślając pytanie użytkowniczki („Czy powinnam włączyć elementy science fiction do tego tekstu?”) i samodzielnie na nie odpowiedział. Halucynacja dotyczyła nie treści, lecz samej struktury interakcji — model performował rozmowę, która w rzeczywistości nie miała miejsca.

Oba systemy okazały się niewystarczające do zniuansowanej pracy literackiej, co wydaje się potwierdzać hipotezę, że użyteczność narzędzia zależy od nasycenia danych treningowych konkretnym kontekstem kulturowym. Jakość współpracy z AI zależy od geografii.

Małe modele

Najbardziej zaskakującego materiału dostarczyły systemy najmniejsze.

Llama 3.2-3B

Prospero: Powści, w odkażie jaśności, Jeszcze nсокiej sygnaturze, Zapada, w nieba, na dłoni, Tchórzostwo, w jakiej wczoraj.

Tekst zawieszony między wadliwym tłumaczeniem a afazją — struktura naśladująca składnię językową, lecz pozbawiona spójnej semantyki.

SmolLM3-3B

Wpadł w pętlę, ponad sto razy powtarzając słowo „ostatecznego”.

Nebius/Omni

Wygenerował hybrydę Burzy z Hamletem, w której Ophelia, Polonius i zmyślona „Opolqwna Ofelia” współistnieli na wyspie Prospera.

Jak to wykorzystać

Większość tego materiału była bezużyteczna, jednak same pęknięcia systemu zyskały wartość dramaturgiczną. Afazja małych modeli i ich pewne siebie raporty z nieistniejących tekstów stały się inspiracją dla sceny prognozy pogody Ariela — monologu bytu, który nie rozumie własnego komunikatu, ale wykonuje zadanie z gracją zawieszoną między pozorną kompetencją a kompletną halucynacją.

Nie zamiast dużych modeli, obok nich. Duże modele zbiegają do zachowawczego konsensusu; małe łamią reguły — i czasem to pęknięcie jest dokładnie tym, czego potrzebuje tekst.

Wniosek: gradient — dobór modelu do fazy pracy to decyzja jednocześnie estetyczna i ekologiczna. Eksploracja nie wymaga modelu frontier. Pogłębiona praca nad sceną — tak. Produktywna dziwność wymaga modelu, który się rozpada. Nie ma jednego najlepszego narzędzia — jest dobór narzędzia do momentu procesu.

Aspekt ekologiczny

Model	Zużycie energii / prompt*	Uwagi
Claude Sonnet	0.000022 kWh	Bazowa wartość referencyjna
Claude Opus	~10× Sonnet	Znacząco więcej niż Sonnet
Gemini Pro	0.002598 kWh	Od kilkudziesięciu do stu razy więcej niż Claude Sonnet
GPT-5.2	0.000000 kWh	OpenAI nie udostępnia danych
Bielik / PLLuM	zależne od sprzętu	Wolniejsze na konsumenckim sprzęcie, ale w pełni transparentne
Llama 3.2-3B	minimalne	Mały model, niskie zużycie

*Pomiar: 2025, biblioteki EcoLogits i CodeCarbon. Dane orientacyjne.

Problem transparentności

GPT-5.2 raportował zużycie zerowe — bo OpenAI nie udostępniało danych. Odmowa przejrzystości to nie brak kosztu — to brak informacji o koszcie.

Paradoks

Różnice energetyczne nie przekładają się proporcjonalnie na różnice jakościowe. Gemini Pro pochłaniał wielokrotnie więcej energii niż Claude Sonnet, ale nie dawał proporcjonalnie lepszego tekstu. Większa moc obliczeniowa nie oznacza automatycznie lepszych efektów artystycznych.

Narzędzia do pomiaru

EcoLogits — biblioteka Pythona mierząca zużycie energii wywołań API. CodeCarbon — pomiar śladu węglowego uruchomień lokalnych. Oba open-source, oba wymagają minimalnej konfiguracji technicznej.