Jakieś 10 lat temu amerykańska agencja EPA ujawniła szokujące wyniki swojego śledztwa
W niektórych modelach Volkswagena zainstalowano oprogramowanie, które wykrywało, że auto jest w trakcie testu i wówczas silnik emitował 40% mniej szkodliwych tlenków azotu.
Wszystko po to by przejść test norm środowiskowych pozytywnie i móc śmiało podbijać amerykański rynek motoryzacyjny Passatami czy Audi A3.
Wybuchła afera, Volkswagen coś tam się tłumaczył, ale potem się okazało, że to nie tylko w USA ale generalnie wszędzie gdzie się dało. W efekcie wylecieli CEO koncernu, szef Audi, kilku innych dyrektorów, a firma latami zmagała się z procesami i nadszarpniętą reputacją. W samych Stanach doszło do ugody na $15,3 mld z czego $10 mld trafiło jako rekompensata to właścicieli 475 tysięcy samochodów. Kosztów dla środowiska nikt się nie doliczył.
Wniosek: nie warto stosować algorytmu “if in test” bo jak sprawa wyjdzie to będzie smutno.
Okazuje się jednak, że niektórzy mają krótką pamięć. Na przykład Meta.
W sobotę firma 5 kwietnia opublikowała najnowszy model Llama 4. Model ma 3 warianty i robi wrażenie: najmniejszy Scout ma imponujące okno kontekstowe 10 mln tokenów, średni Maverick przebija GPT-4o czy Gemini 2.0, a największy Behemoth ma 2 biliony parametrów. Wyniki w różnych rankingach również są imponujące.
Szczególnie w gorącym Chatbot Arena gdzie model znalazł się na 2 miejscu.
Tyle tylko, że to nie jest żaden z 3 opublikowanych modeli. Jest to wariant zoptymalizowany specjalnie pod pojedynki na Arenie, gdzie ludzie oceniają anonimowo wyświetlane odpowiedzi z modeli. Nijak się to jednak ma do tego co faktycznie dostaliśmy do użytku.
Znaczy produkuje mniej spalin w czasie przeglądu, a normalnie kopci ile fabryka dała.
Ludzie oczywiście szybko się zorientowali, firma się tłumaczy i dementuje. Sprawie nie pomaga, że parę dni przed premierą swoje odejście ogłosiła szefowa AI research Joelle Pineau.
Wiadomo, że wszyscy chcą mieć lepsze zabawki niż konkurencja i lepsze miejsce w rankingu czy wynik w benchmarku. Ale od paru miesięcy jest to jakby coraz trudniejsze.
Czy to kolejny sygnał, że możliwości dużych modeli językowych doszły do ściany?





