Google I/O 2024

Sztuczna inteligencja stanie się integralną częścią aplikacji i systemów od Google. Zmiany czekają nawet wyszukiwarkę.

Od lat wielkie firmy technologiczne organizują na wiosnę swoje wydarzenia, na których prezentują produkty i ogłaszają przełomy. Google jak co roku zorganizowało swoją konferencję Google I/O gdzie prezes firmy Sundar Pichai w towarzystwie m.in. kierownika Google DeepMind Demisa Hassabisa pokazali nad czym pracuje Googole. Pod koniec maja 2024 odbędzie się jeszcze Microsoft Build, a na początku czerwca WWDC 2024 od Apple.

Najważniejsze ogłoszenia

AI Overview
Ask Photos
Video-prompting
generator video Veo
Gemini 1.5 Flash
2 miliony tokenów w Gemini Pro 1.5
Gemini Nano – asystent wbudowany w Google Chrome
Gems (AI agents)
sidebar z Gemini w Google Workspace
Imagen 3
Music AI Sandbox
Project Astra
nie ogłoszone ale zauważone okulary AR

AI Overview to poważna zmiana w wyszukiwarce. Wygląda na to, że Google znalazło sposób jak połączyć zapytania w języku naturalnym z wytwarzaniem odpowiedzi, która nie zabije jej biznesu czyli reklam w wynikach wyszukiwania. Zamiast listy linków z opisami dostaniemy przypominające artykuł opracowanie w formie tekstu wraz obrazami i linkami do źródeł. Wygląda to interesująco ale jednocześnie stanowi wyzwanie dla branży SEO.

Ask Photos czyli ulepszenie algorytmu przeszukiwania i prezentowania Zdjęć Google. Teraz możliwe będzie sprawdzenie jakichś elementów zdjęcia albo ułożenie ich w pewnej kolejności czy kontekście

Video w Google Lens czyli imponująca możliwość zadawania pytania poprzez wgranie filmiku czy “pokazanie” kamerą smartfona obiektu, o który pytamy. Możliwe też będzie “circle to search” czyli zaznaczenie czegoś na ekranie i zapytania o to. Obok tego Google zapowiada Veo czyli generator video na podstawie tekstu – alternatywę dla zapowiedzianego ale wciąż niedostępnego Sora od OpenAI.

Samo Germini również dostanie kilka rozszerzeń: będzie nowy nowy szybszy model Gemini 1.5 Flash oraz powiększenie okna kontekstu w Gemini Pro 1.5 z 1 do 2 milionów tokenów. Będzie wbudowane w Google Chrome Gemini Nano, który ma stać się naszym asystentem w przeglądarce. Pojawią się Gems czyli konfigurowane przez użytkowników automatyczne AI agents. Będzie też AI sidebar w Google Workspace, który umożliwi pracę z e-mailami, dokumentami czy transkrypcje spotkań z Google Meet.

Będzie nowy model generatywnego obrazu Imagen 3 co daje nadzieję, że generacja grafiki w Gemini zostanie wkrótce ponownie włączona. Rozbudowano również możliwości generacji dźwięku w formie AI Music Sandbox.

Bardzo duże wrażenie zrobiło demo Project Astra czyli prezentacja możliwości Gemini otrzymującego polecenia głosowe i strumień obrazu przez kamerę smartfona systemu. Użytkowniczka chodziła po londyńskim biurze Google DeepMind i pytała o rozłożone po nim przedmioty, widoczny na ekranie kod czy, widok za oknem. Najlepsze było jednak pytanie: “czy pamiętasz gdzie położyłam moje okulary?”, po którym Gemini pokierowało w odpowiednie miejsce i przez moment widać było te okulary. Przeskok i dalsza część wideo zdaje się nagrana już przez te okulary: padają pytania o diagram systemu na tablicy, kota Schrodingera czy siedzącego na podłodze psa gdzie przez moment widać obie ręce użytkowniczki. Nasuwa się oczywiste: Google dało do zrozumienia, że nadal pracuje nad okularami AR.

Co wynika z Google I/O?

Należy powiedzieć, że to było imponujące wydarzenie. Google pokazało, że przez miniony rok nadrobiło, a w niektórych przypadkach przegoniło konkurencję. Ewidentne jest postawienie na różnorodne elementy sztucznej inteligencji w aplikacjach i systemach firmy. Google nie próbuje jednak budować jednej aplikacji do wszystkiego z udawaną sztuczną osobowością tylko dodaje nowe możliwości stopniowo i racjonalnie tam gdzie mogą się przydać. Przykładowo pogłębienie możliwości przeszukiwania własnych zdjęć to coś co może przydać się każdemu, a sidebar w Workspace czy Gemini Nano w przeglądarce będzie po prostu wygodny.

Bardzo ważnym jest zmiana w wyszukiwarce. Google wciąż zarabia głównie na reklamach w wynikach wyszukiwania i wszelkie zmiany tutaj mogą być kluczowe dla przyszłości firmy. Na dodatek każde zapytanie wymaga pewnych mocy obliczeniowych, a przecież Google dostaje ich 100 tysięcy na sekundę. Przetwarzanie promptu przez AI jest wielokrotnie bardziej skomplikowane i nie da się tak po prostu zamienić aktualnego mechanizmu przez Gemini bo serwery tego nie udźwigną.

Pokazane przez Liz Reid rozwiązanie wykorzystuje zdolność przetwarzania zapytania w języku naturalnym i prezentuje generatywną ale wciąż opartą na wynikach wyszukiwania odpowiedź zamiast typowego, nie liczącego się z faktami syntetyku. W teorii powinno to zapobiegać halucynacjom i utrzymać zaufanie do Google jako mechanizmu pozyskiwania informacji opartej na faktach. Jednocześnie może skrócić czas poświęcony na badaniu bardziej złożonego zapytania bo wygenerowana odpowiedź będzie adresować zapytanie całościowo. Jak to w praktyce będzie działać – trzeba będzie przetestować. Widać jednak, że jeśli to się sprawdzi, użytkownicy mniej czasu spędzają na docelowych stronach internetowych, a całą optymalizację pod wyniki wyszukiwania też trzeba będzie robić inaczej. Zmiana w wyszukiwarce jest więc bardzo ważnym ogłoszeniem tej konferencji.

To co również bardzo się wyróżnia to demonstracja “project Astra” czyli rozszerzenie możliwości Google Gemini o przetwarzanie obrazu wideo. Po obejrzeniu tej części jasnym się staje dlaczego OpenAI zorganizowało niespodziewanie prezentację nowego GPT-4o dzień wcześniej. Astra to bezpośrednia konkurencja ich rozwiązania więc koniecznie chcieli być pierwsi. Widać, że wyścig na tym polu rodzi wiele emocji u prowadzących je badaczy i ich szefów. Możemy się spodziewać dalszego nasilenia rywalizacji.

Podsumowując Google pozostaje liderem w wielu obszarach technologii. Na dodatek potrafi w racjonalny sposób nadrabiać niedociągnięcia by tym liderem pozostawać. Rok temu Microsoft z pomocą narzędzi od OpenAI zawzięcie atakował zarówno wyszukiwanie jak i aplikacje biurowe czy sferę asystentów AI. Dziś wygląda, że Google się obroniło i na dodatek zaczyna przyspieszać.

Najważniejsze ogłoszenia

Co wynika z Google I/O?

Powiązane wpisy:

Co ma Llama do Volkswagena?

Przegląd technologiczny [styczeń 2025]

Google I/O 2024

Najważniejsze ogłoszenia

Co wynika z Google I/O?

Powiązane wpisy:

Co ma Llama do Volkswagena?

Tiktok: Puchowe ultimatum

Przegląd technologiczny [styczeń 2025]