Google Gemini Live: A Moon Landing Moment för AI på smartphones?

Google Gemini Live: A Moon Landing Moment för AI på smartphones?
© Google, Supamotionstock.com/Shutterstock

Google tillkännagav idag fyra nya smartphones från Pixel 9-serien, en ny Pixel Watch i två storlekar för första gången och nya Pixel Buds. Även om hårdvaran låter som ett helkvällsprogram, är den verkliga stjärnan en helt annan: Gemini — och särskilt Gemini Live. Är detta ögonblicket för månlandning för artificiell intelligens?

Vad är Tvillingarna – och hur långt kan det gå?

Låt oss ta ett steg tillbaka: Google samlar ett lite förvirrande antal olika saker under paraplyet Tvillingarna. Å ena sidan finns de generativa AI-modellerna Gemini Nano, Gemini Flash, Gemini Pro och Gemini Ultra. Dessa modeller utvecklas i stigande versioner; den mest kraftfulla modellen är för närvarande ”Gemini 1.5 Pro”, som överträffar konkurrenterna från OpenAI & Co. i olika AI-riktmärken.

Gemini har dock även kallats Googles chatbot, tidigare känd som Bard, sedan början av 2024. Och den chatboten får nu en språkversion som heter ”Gemini Live” i stil med det legendariska Voice Mode of ChatGPT 4o, som tillkännagavs en dag före Google I/O i maj 2024. Den är fortfarande inte ens tillgänglig som en bred beta, vilket skapar rubriker mer för läskiga misslyckanden än för ett överraskande framträdande.

Gemini hänvisar förresten även till olika abonnemangsmodeller. Enbart ”Gemini” är den fria tillgången till Google AI som heter Gemini baserat på ”Gemini Pro”-modellen. Du har dock bara tillgång till ovannämnda ”Gemini 1.5 Pro” med prenumerationsmodellen ”Gemini Advanced” för $19,99 per månad – eller så kan du prenumerera på Google One AI Premium. Jag kommer inte ens börja med Gemini Business vid det här laget. Men nu till den förmodade månlandningen.

  • Läs mer: Google Pixel Watch 3 – hur stor är skillnaden mot Watch 2?
Google Assistant

De fyra färgglada prickarna i Google Assistant kommer snart att vara historia – nu kommer ”Tvillingtiden”. / © Google

Gemini Live: Showens ”stjärna”.

Förutom de trettiofyra olika Tvillingarna finns det ytterligare ett inslag med samma namn som visar vägen till de kommande åren: Gemini Live. Detta är en så kallad konversationsmodell som möjliggör naturliga konversationer – snarare än att bara utbyta turbaserade röstmeddelanden med AI-modellen, som var och en transkriberas som text eller utdata via röstutdata. Skillnaden i dynamik är som att jämföra schack med ett sprintlopp.

I livedemon vid evenemanget ”Made by Google” bad Jenny Blackburn om en rolig och lärorik aktivitet för sin systerdotter och syskonbarn inom kemiområdet, inklusive en touch av magi. Förslagen var en magisk vulkan, en hemmagjord lavalampa eller osynligt magiskt bläck.

Jenny valde det magiska bläcket, som under loppet av följande konversation utvecklades till svart ljust bläck, fick projektnamnet ”Secret Message Lab” och försäkran att inte göra för mycket stök när hon experimenterade.

Mindre än det rena resultatet, som lätt hade kunnat googlas, var det resan som var riktigt imponerande. Med Gemini Live blir Internet din samtalspartner — och i framtiden även ditt eget liv, som nu också kan sökas med hjälp av Gemini AI tack vare flera nya funktioner.

Funktionen ”Samtalsanteckningar” transkriberar till exempel dina telefonsamtal efter ett tips till din samtalspartner och låter dig söka igenom dem i efterhand. ”Pixel Screenshots” förvandlar din försummade samling av skärmdumpar av förment viktiga saker till en sökbar databas med personliga anteckningar. Och med Workspace-tilläggen kan du prata med din Google Kalender såväl som dina data från e-postmeddelanden, uppgifter eller Google Keep.

”Problemet”: Gemini Live kräver den kraftfulla språkmodellen Gemini 1.5 Pro, som körs i molnet. Om du använder AI-modeller för att extrahera detaljer från ditt universum av personlig Google Workspace-data, transkriptioner etc. görs detta bara lokalt – med Gemini Nano. Det finns dock ett stort dataskyddsgap med den molnbaserade Gemini 1.5 Pro. Vi har bett Google om ett uttalande om detta och kommer att uppdatera artikeln så snart vi har fått feedback.

Demo av Google Gemini med tillgång till personlig data

Baserat på den fotograferade konsertaffischen och Google-kalendern säger AI-assistenten Gemini om användaren har tid att gå på en konsert. / © Google

Tvillingarna och dataskyddsgapet

Medan Gemini, latin för ”tvilling”, faktiskt står för partnerskapet mellan Googles två AI-labb DeepMind och Brain, kan namnet också ses som en ofrivillig beskrivning av klyftan mellan lokal och moln.

I klartext: Om du börjar chatta med Gemini Live på engelska i Gemini-appen för Android (ja, självklart heter appen så) har AI-modellen som körs här ingen tillgång till dina personuppgifter från din e-post, kalender etc. Och detta kommer sannolikt inte att förändras när Gemini Live blir tillgängligt på andra språk och till och med för iOS under de kommande veckorna och månaderna.

Om du vill fråga Tvillingarna om du kan delta i en konsert baserad på ett fotografi av en affisch, måste du skriva din fråga som på stenåldern eller använda röstinmatning. För även om den lokalt körda Gemini Nano-modellen har tillgång till dina personliga data, har den inte tillräckligt med kraft för realtidskonversationer.

  • Också intressant: Google Pixel 9, Pixel 9 Pro (XL) och Pixel 9 Pro Fold i jämförelse
Google Tensor G4 och AI-funktioner

Google Tensor G4-chippet i den nya Pixel 9-serien har tillräckligt med kraft för att köra Gemini Nano AI-modellen på enheten. / © Google

Landar Gemini Live the Moon i ”AI Race”?

Under rymdkapplöpningen på 60- och 70-talen hade NASA ett rymdprogram kallat ”Gemini”, som banade väg för den första månlandningen 1969 med det efterföljande Apollo-programmet. Tillfällighet? Knappast, eftersom de tio röster som fanns tillgängliga för Gemini Live vid lanseringen fick engelskspråkiga namn för stjärnkonstellationer: Vega, Dipper, Ursa & Co.

Så medan Google sträcker sig efter stjärnorna och även har en före detta NASA-ingenjör på scenen på sin efterfest, saknas det fortfarande en bit från månlandningen. Den noggrant smidda länken mellan den mest privata användardatan i de lokalt körda Gemini-modellerna och de kraftfulla molnmodellerna som möjliggör naturliga konversationer.

Google har redan meddelat nästa steg med Project Apollo Astra: Här ska Gemini Live ges tillgång till kameran som redan visas på Google I/O och sedan även successivt integrera appar som Google Calendar.

Nyaste artiklar

Relaterade artiklar