LLM to nie cała scena AI. Co jest w cieniu?

10 marca 2026 Yann LeCun - laureat nagrody Turinga, były główny naukowiec AI w Meta - zamknął rundę seed o wartości 1,03 miliarda dolarów na AMI Labs. Firma nie buduje kolejnego chatbota. Buduje world models - systemy AI, które rozumieją fizyczny świat zamiast generować tekst.

Miliard dolarów na tezę, że LLM to nie jest droga do inteligentnych systemów AI.

“Będziemy mieli systemy AI na poziomie ludzkiej inteligencji, ale nie zostaną zbudowane na LLM-ach. Potrzebne są fundamentalne przełomy konceptualne. I właśnie na tym skupia się AMI Labs.”

— Yann LeCun, MIT Technology Review (tłum. własne)

To nie jest pozycja outsidera. To kontrariański zakład jednego z trzech ludzi, których praca stworzyła fundament pod obecną rewolucję AI. I niezależnie od tego, czy LeCun ma rację co do przyszłości - jego obserwacja o teraźniejszości jest trudna do podważenia.

LLM dominuje narrację. Nie dominuje zastosowań.

Dlaczego LLM zjadł scenę

LLM ma coś, czego inne typy AI nie mają: prostotę użytkowania. Nie trzeba rozumieć tensorów, funkcji straty ani architektury sieci. Wystarczy pisać.

To sprawia, że LLM jest jedynym typem AI, który ludzie potrafią użyć bez instrukcji. Rozmowa z ChatGPT wygląda jak rozmowa z innym człowiekiem. Wykres treningu sieci neuronowej wygląda jak kolorowa tapeta.

Efekt jest przewidywalny. “AI” w publicznym dyskursie praktycznie równa się “LLM”. Kiedy firma ogłasza “wdrożenie AI”, domyślnie oznacza to chatbota lub asystenta tekstowego. Kiedy ktoś mówi “AI zabierze ci pracę”, myśli o modelu, który generuje tekst, kod albo obrazy.

Tymczasem większość realnych zastosowań AI nie polega na generowaniu tekstu. LLM dominuje narrację, ale na scenie AI gra znacznie więcej aktorów - i w swoich dziedzinach miażdżą LLM.

Typy AI poza LLM

Typ AI	Co robi	Dlaczego nie LLM
Reinforcement Learning	Uczy się podejmować sekwencje decyzji metodą prób i błędów	LLM generuje tekst, nie podejmuje decyzji w środowisku z feedbackiem
World Models	Buduje wewnętrzną reprezentację fizycznego świata	LLM operuje na tokenach tekstu, nie rozumie fizyki, przestrzeni ani ruchu
Computer Vision	Rozpoznaje, segmentuje i analizuje obraz	LLM nie operuje natywnie na pikselach - CV jest szybsze i tańsze
Diffusion Models	Generuje obrazy, wideo i audio z szumu	LLM generuje token po tokenie, diffusion operuje na danych ciągłych
Graph Neural Networks	Analizuje dane w formie grafów - relacje, sieci, struktury	LLM widzi sekwencję tokenów, nie widzi struktury połączeń między danymi
Systemy rekomendacyjne	Przewiduje co użytkownik chce zobaczyć, kupić, posłuchać	LLM nie jest zoptymalizowany do miliardów predykcji w czasie rzeczywistym
Klasyczne ML	Prognozuje na danych tabelarycznych	LLM jest wielokrotnie droższy i gorszy na danych strukturalnych

To nie jest lista technologii przyszłości. Każda z nich wpływa bezpośrednio na nasze życie tu i teraz.

Gdzie te modele już działają

Reinforcement learning steruje ramionami robotów w magazynach Amazona - multi-agent RL optymalizuje sortowanie paczek na setkach agentów jednocześnie. DeepMind użył RL do chłodzenia centrów danych Google’a i obniżył zużycie energii na chłodzenie o 40%.

Computer vision ma blisko 400 algorytmów zatwierdzonych przez FDA do radiologii - praktycznie wszystkie oparte na sieciach konwolucyjnych i architekturach wizyjnych.

Systemy rekomendacyjne to prawdopodobnie najszerzej wdrożony typ AI, o którym nikt nie mówi - miliardy decyzji dziennie w Netflix, Spotify, Amazonie i TikToku.

Graph Neural Networks analizują struktury połączeń - NVIDIA i Amazon wdrożyły je do wykrywania fraudu w sieciach transakcji bankowych, a firmy farmaceutyczne używają ich do przyspieszania odkrywania leków.

Diffusion models generują obrazy w Midjourney i Stable Diffusion, ale to tylko najbardziej widoczne zastosowanie - ta sama architektura projektuje struktury molekularne i syntetyzuje mowę.

Klasyczne ML? Scoring kredytowy, prognozowanie popytu, underwriting w ubezpieczeniach, predykcja awarii w fabrykach. Benchmarki pokazują to samo od lat: na danych tabelarycznych XGBoost bije modele deep learning - szybciej, taniej i dokładniej.

Zakład LeCuna: world models zamiast LLM

AMI Labs buduje architekturę JEPA (Joint Embedding Predictive Architecture) - podejście, które zamiast generować dane token po tokenie, uczy się przewidywać reprezentacje przyszłych stanów świata. Innymi słowy: zamiast pisać opis tego, co widzi, model buduje wewnętrzny model rzeczywistości.

LeCun argumentuje, że LLM-y operują na tokenach tekstu i z definicji nie są w stanie zrozumieć fizycznego świata - ciągłego, wielowymiarowego, nieprzewidywalnego. Tekst to skompresowana, wysoce zredukowana wersja rzeczywistości. Budowanie inteligencji na samym tekście to jak próba zrozumienia miasta na podstawie samych nazw ulic.

Czy ma rację? Za wcześnie, żeby ocenić. JEPA to wciąż architektura badawcza, a miliard dolarów nie gwarantuje przełomu. Ale pokazuje coś innego: przesłonięcie reszty AI przez LLM może być chwilowe. Inwestorzy już patrzą dalej.

Ale to nie znaczy, że LLM jest zbędny. Żaden inny model nie pisze kodu, nie tłumaczy i nie analizuje dokumentów tak jak on. W swojej dziedzinie jest niezastąpiony. Tyle że to jedna dziedzina - a zajęła 90% wyobraźni branży.

Pytanie, które zostaje

Jeśli większość zastosowań AI nie wymaga LLM - co tak naprawdę kupujesz, kiedy “wdrażasz AI w swoim biznesie”?

W newsletterze rozwijam tego rodzaju tematy głębiej. Zapisz się.