Co ma Llama do Volkswagena?

llam a VW

Jakieś 10 lat temu amerykańska agencja EPA ujawniła szokujące wyniki swojego śledztwa

W niektórych modelach Volkswagena zainstalowano oprogramowanie, które wykrywało, że auto jest w trakcie testu i wówczas silnik emitował 40% mniej szkodliwych tlenków azotu.

Wszystko po to by przejść test norm środowiskowych pozytywnie i móc śmiało podbijać amerykański rynek motoryzacyjny Passatami czy Audi A3.

Wybuchła afera, Volkswagen coś tam się tłumaczył, ale potem się okazało, że to nie tylko w USA ale generalnie wszędzie gdzie się dało. W efekcie wylecieli CEO koncernu, szef Audi, kilku innych dyrektorów, a firma latami zmagała się z procesami i nadszarpniętą reputacją. W samych Stanach doszło do ugody na $15,3 mld z czego $10 mld trafiło jako rekompensata to właścicieli 475 tysięcy samochodów. Kosztów dla środowiska nikt się nie doliczył.

Wniosek: nie warto stosować algorytmu “if in test” bo jak sprawa wyjdzie to będzie smutno.

Okazuje się jednak, że niektórzy mają krótką pamięć. Na przykład Meta.

W sobotę firma 5 kwietnia opublikowała najnowszy model Llama 4. Model ma 3 warianty i robi wrażenie: najmniejszy Scout ma imponujące okno kontekstowe 10 mln tokenów, średni Maverick przebija GPT-4o czy Gemini 2.0, a największy Behemoth ma 2 biliony parametrów. Wyniki w różnych rankingach również są imponujące.

Szczególnie w gorącym Chatbot Arena gdzie model znalazł się na 2 miejscu.

Tyle tylko, że to nie jest żaden z 3 opublikowanych modeli. Jest to wariant zoptymalizowany specjalnie pod pojedynki na Arenie, gdzie ludzie oceniają anonimowo wyświetlane odpowiedzi z modeli. Nijak się to jednak ma do tego co faktycznie dostaliśmy do użytku.

Znaczy produkuje mniej spalin w czasie przeglądu, a normalnie kopci ile fabryka dała.

Ludzie oczywiście szybko się zorientowali, firma się tłumaczy i dementuje. Sprawie nie pomaga, że parę dni przed premierą swoje odejście ogłosiła szefowa AI research Joelle Pineau.

Wiadomo, że wszyscy chcą mieć lepsze zabawki niż konkurencja i lepsze miejsce w rankingu czy wynik w benchmarku. Ale od paru miesięcy jest to jakby coraz trudniejsze.

Czy to kolejny sygnał, że możliwości dużych modeli językowych doszły do ściany?