Blaski i cienie GPT-4o

OpenAI zaprezentowało nowy, multimodalny model: GPT-4o. Obsługuje tekst, obraz, audio i wideo i stanowi krok w stronę generatywnej osobowości.

To był niezwykły tydzień dla świata nowych technologii. Obok napędzanego ogłoszeniami na temat AI eventu Google I/O 2024 (przeczytaj podsumowanie) kolejni gracze znieśli ograniczenia i udostępnili swoje zabawki w UE: Claude 3 od Anthropic i Grok od xAI są już dostępne. Ale najważniejsze było poniedziałkowe “Sprint Update” od OpenAI, na którym badacze firmy pod wodzą Miry Murati pokazali nowy model GPT-4o.

Możliwości GPT-4o

GPT 4o (“omni”) to jak pisze firma krok w kierunku lepszej komunikacji między człowiekiem, a komputerem. Model akceptuje polecenia tekstowe, głosowe, obraz i wideo w odpowiedzi generując tekst, obraz i audio. Badacze ogłosili jego publiczne udostępnienie – również w darmowym Chat GPT – choć na razie jest z tym problem bo system ma ograniczoną pojemność i nawet posiadacze kont premium nie mają w tym momencie dostępu. Natomiast po obejrzeniu samego demo w oczy rzuca się kilka cech nowego modelu:

Audio. Aplikacja ma domyślną obsługę głosową i odpowiedzi audio. To jest możliwe również w tradycyjnym czacie tyle tylko, że za pośrednictwem tekstu. To znaczy: możemy coś powiedzieć do głośnika ale aplikacja wykona transkrypcję, którą następnie załaduje do modelu, a uzyskaną odpowiedź wyświetli jako tekst, który następnie może być odczytany. Teraz jednak system faktycznie słucha głosu i w efekcie wychwytuje też jego ton i poniekąd odczytuje emocje. To robi wrażenie. Sama zaś odpowiedź audio możliwa ma być w różnych głosach, a nawet w formie śpiewanej.

Szybkość. Nowy model odpowiada niemal od razu – nie ma już tej sekundy czy kilku oczekiwania. Wygląda trywialnie ale oznacza, że OpenAI musiało bardzo zainwestować w procesory i przetwarzanie danych. Zresztą Mira Murati podziękowała na końcu demo firmie Nvidia (czyżby OpenAI korzystało już z nowiutkich super-chipów Blackwell?)

Wideo. Nowy model przyjmuje również ruchomy obraz jako zapytanie: jest w stanie komentować to co pokazuje kamera smartfona, prowadzić wokół tego dialog – np.: rozwiązywać zadanie z matematyki, analizować kod czy wykres. Nie trzeba już opisywać – można pokazać i poprosić o odpowiedź, a to daje nowe możliwości.

Translator. To jedno z zastosowań możliwości audio ale wyjątkowe: model może służyć jako tłumacz pomiędzy językami: pokazano przykład angielsko-włoski. To oczywiście wcześniej też było możliwe w różnych aplikacjach (nawet w Google Assistant 5 lat temu) ale działa szybciej a więc skuteczniej pomoże w komunikacji. To na pewno przypadek, że akcje Duolingo od razu tąpnęły na giełdzie (wszak Duolingo korzysta z GPT-4 jak ktoś nie wie).

Możliwość przerywania. Kiedy system odpowiada, można wejść mu w słowo i np.: zmienić pytanie a dalsza odpowiedź już to uwzględnia. Dużo bardziej przypomina to naturalną rozmowę. Działa jak przycisk ”przestań odpowiadać” w wersji tekstowej ale w praktyce działa lepiej

Całe demo było “na żywo” więc to co zostało pokazane faktycznie działa ale oczywiście nie bezbłędnie co było dość widoczne. W oparciu o błędy jakie można było zobaczyć widać zresztą, że nie ma tam żadnego rozumienia. Aplikacja ma więcej możliwości wciąż jednak pozostaje modelem generatywnym.

GPT-4o: generatywna osobowość

GPT-4o to nadal model generatywny ale za to posuwający możliwości swojej generatywności na nowe obszary. Zobaczyliśmy mianowicie pokaz generatywnej osobowości.

Od pierwszych minut demonstracji widać, że firma porzuciła neutralny, syntetyczny stosowany dotąd w czacie ton na rzecz głosu, który zdaje się wyrażać emocje, mieć jakieś zdanie czy wręcz osobowość. To bardzo kontrowersyjne podejście. Model nie ma emocji ani osobowości nie wiadomo więc do czego ma służyć ich symulowanie. Łatwo natomiast wyobrazić sobie potencjalne negatywne skutki takiego rozwiązania. Głos mówi, że się cieszy albo jest onieśmielony ale to przecież fake. Tymczasem brzmi to tak przekonująco, że można sobie wyobrazić, że w pewnych okolicznościach możliwe byłoby przejście testu Turinga. Testu, którego celem jest przekonanie człowieka, że rozmawia z drugim człowiekiem, a nie maszyną.

Nie jest do końca jasne co przyświeca twórcom nowego modelu, że przybliżają go do tego jak w popkulturze prezentowane jest często AI. Nasuwają się skojarzenia z Her, Ex Machina czy Ghost in the Shell. Głos przypomina wręcz trochę Scarlett Johansson (która grała “AI” w dwóch z tych trzech filmów). Dziwne podobieństwo. Choć może lepsze niż gdyby model przemówił głosem Arnolda Schwarzeneggera.

Widać jednak, że jeśli tylko, że granica możliwości symulowania osób przesuwa się. Jak dotąd mogliśmy polecić czatowi by odpisywał w stylu Yody czy Sokratesa ale to była zabawa. Jednak popularność serwisu Character.ai albo Replica, które na takich symulacjach się opierają pokazuje, że jest na to ogromny popyt. Może właśnie o to chodzi?

Tym bardziej, że żeby usuwać bugi w systemie trzeba użyć RLFH (ang. Reinforced Learning from Human Feedback) czyli tej samej metody, która jest stosowana od półtorej roku w Chat GPT i wszystkich innych darmowych AI-chatach (spoiler: to przecież główny powód tego, że są darmowe).

OpenAI: odejścia i domysły

Ale debiut nowego modelu to nie wszystko. 8 maja firma opublikowała niezwykle ciekawy dokument “Model Spec”. Dokument opisuje sposób w jaki firma chce by zachowywał się model napędzający Chat GPT oraz podpięte do niego API. Dużo tam mowy o bezpieczeństwie i zasadach – w końcu jasno napisane jest w jakie filtry system został wyposażony. To dobrze, że w końcu ktoś stawia sprawę jasno.

Tylko dlaczego jednocześnie odchodzą kluczowe osoby odpowiedzialne za bezpieczeństwo systemu właśnie? Bo następnego dnia po publikacji firmę opuścili Daniel Kokotajlo i William Saunders, a zaraz po debiucie GPT-4o za współpracę podziękował ich kierownik Jan Leike.

Na to wszystko papiery złożył też Ilya Sutskever czyli jeden z współzałożycieli, były CSO i kluczowy badacz bez którego nie byłoby zapewne sukcesu firmy. A jednocześnie osoba odpowiedzialna, za nieudaną próbę odwołania Sama Altmana na jesieni 2023. Tak się składa, że minęło pół roku czyli tradycyjny okres trwania zakazu konkurencji.

Panowie ładnie sobie dziękują na X/Twitterze ale cień wątpliwości pozostaje. Nawet jeśli jego następcą jako zostaje nasz rodak Jakub Pachocki. Leike i Sutskever są znani ze swojej ostrożności wobec AI. A to co robi ostatnio Sam Altman et consortes jest może przełomowe ale z ostrożnością nie ma wiele wspólnego.

Co ma Llama do Volkswagena?

Przegląd technologiczny [styczeń 2025]

Możliwości GPT-4o

GPT-4o: generatywna osobowość

OpenAI: odejścia i domysły

Powiązane wpisy:

Co ma Llama do Volkswagena?

Tiktok: Puchowe ultimatum

Przegląd technologiczny [styczeń 2025]