På onsdagen lanserade Google en ny multimodal generell AI-modell (artificiell intelligens), Gemini, för att konkurrera med produkter från OpenAI, Microsoft och Meta.
Google lanserar sin mest kraftfulla AI-modell, Gemini
Enligt sökjätten är Gemini den “största och mest kapabla” stora språkmodellen (LLM) som företaget någonsin har byggt, med toppmodern prestanda över många ledande benchmarks.
Denna flexibla AI-modell är utvecklad av Google DeepMind AI-enheten och tränas på Googles Tensor Processing Units (TPU), vilket gör att den går betydligt snabbare än tidigare, mindre och mindre kapabla modeller. Den kan generalisera och sömlöst förstå, fungera över och kombinera olika typer av information, inklusive text, kod, ljud, bild och video.
Google ger Gemini 1.0, dess första version, i tre olika storlekar: Gemini Ultra, dess största och mest kapabla modell för mycket komplexa uppgifter; Gemini Pro, dess bästa modell för att skala över ett brett spektrum av uppgifter; och Gemini Nano, dess mest effektiva modell för uppgifter på enheten.
“Det här är de första modellerna från Gemini-eran och det första förverkligandet av den vision vi hade när vi bildade Google DeepMind tidigare i år. Den här nya eran av modeller representerar en av de största vetenskaps- och ingenjörsinsatser vi har gjort som företag, säger Sundar Pichai, VD för Google och Alphabet, i en kommentar till blogginlägget om tillkännagivandet.
Enligt Google DeepMind överträffar Gemini Ultra GPT-4 på 30 av de 32 allmänt använda akademiska benchmark-testerna för att mäta kapacitet som bildförståelse eller matematiska resonemang.
Speciellt säger Google Gemini Ultras poäng på 90 procent på MMLU (massiv multitask språkförståelse), som använder en kombination av 57 ämnen som matematik, fysik, historia, juridik, medicin och etik för att testa både världskunskap och problem- lösningsförmåga, gör den till den första AI-modellen som överträffar mänskliga experter på det riktmärket.
Dessutom sa Google att Gemini Ultra fick 59,4 % på det nya MMMU-riktmärket, som består av multimodala uppgifter som spänner över olika domäner som kräver medvetna resonemang. Den överträffade till och med tidigare modeller i bildriktmärken utan hjälp från optiska teckenigenkänningssystem (OCR) som extraherar text från bilder för vidare bearbetning.
Tillgänglighet för Gemini AI
Google säger att Pro-versionen nu är tillgänglig i Bard chatbot och kommer att finnas tillgänglig på engelska i mer än 170 länder och territorier, med planer på att expandera till olika modaliteter och stödja nya språk och platser inom kort. Från och med den 13 december kommer utvecklare och företagskunder att få tillgång till Gemini Pro via Gemini API i Google AI Studio eller Google Cloud Vertex AI.
Dessutom kommer Google också med Gemini Nano på Pixel 8 Pro-smarttelefoner och har planer på att integrera Gemini med tiden i sina söktjänster, annonser, Chrome och andra tjänster under de kommande månaderna. Dessutom kommer Android-utvecklare att ha tillgång till Gemini Nano via AICore, en ny systemfunktion tillgänglig i Android 14, från och med Pixel 8 Pro-enheter, som kommer att vara tillgänglig på en tidig förhandsgranskning.
Slutligen planerar Google att släppa sin mest avancerade version av AI-modellen, Gemini Ultra, genom Bard Advanced med start i början av 2024. Den kommer att vara tillgänglig för utvalda kunder, utvecklare, partners och säkerhets- och ansvarsexperter “för tidigt experiment och feedback” innan det rullas ut till utvecklare och företagskunder i början av nästa år.