Categories
Informationsteknologinyheter

ChatGPT kan nu se bilder och lyssna på din röst

Microsoft-stödda start-up OpenAI lade nyligen till röst- och bildfunktioner för sin generativa AI-baserade chatbot ChatGPT som nu låter den se, höra och tala.

Dessa funktioner erbjuder en ny, mer intuitiv typ av gränssnitt som tillåter användare att ha en röstkonversation eller visa ChatGPT vad de pratar om.

ChatGPT kan nu se bilder och lyssna på din röst

Låt oss ta en titt på de nya funktionerna som lagts till i ChatGPT:

Röst

Användare kan nu använda rösten för att delta i en konversation fram och tillbaka med AI-assistenten. Drivs av en ny text-till-tal-modell, kan ChatGPT nu generera mänskligt ljud från bara text och några sekunders exempel på tal.

OpenAI har samarbetat med professionella röstskådespelare för att skapa fem olika röstalternativ, som inkluderar manliga och kvinnliga röster. Den har också använt Whisper, dess open-source taligenkänningssystem, för att transkribera användarens talade ord till text.

För att komma igång med röstkonversationer, öppna Inställningar och klicka på “Nya funktioner” i mobilappen. Välj sedan röstsamtal. När du är klar trycker du på hörlursknappen i det övre högra hörnet av startskärmen och väljer din föredragna röst bland fem olika röstalternativ.

Bilder

ChatGPT kan nu svara på bilder som laddats upp av användare. Användare kan till exempel ta en bild av ett landmärke när de reser för att få mer information om det eller skicka bilder på deras kylskåp och skafferi, och AI-assistenten kan föreslå vilka rätter som kan lagas till middag med ingredienserna närvarande.

Detta är möjligt genom bildförståelse, som drivs av multimodala GPT-3.5 och GPT-4 som tillämpar sina språkkunskaper på olika bilder, såsom fotografier, skärmdumpar och dokument som innehåller både text och bilder.

För att komma igång, tryck på fotoknappen för att ta eller välja en bild. Du måste först trycka på plusknappen om du använder en iOS- eller Android-enhet. Dessutom kan du diskutera flera bilder eller använda OpenAI:s ritverktyg för att guida din AI-assistent.

“Röst och bild ger dig fler sätt att använda ChatGPT i ditt liv. Ta en bild av ett landmärke när du reser och ha en livekonversation om vad som är intressant med det, säger företaget meddelat i ett blogginlägg på måndag.

“När du är hemma, ta bilder av ditt kylskåp och skafferi för att ta reda på vad som finns till middag (och ställ uppföljningsfrågor för ett steg-för-steg-recept). Efter middagen kan du hjälpa ditt barn med ett matematiskt problem genom att ta ett foto, ringa in problemuppsättningen och låta den dela tips med er båda.”

Tillgänglighet

Under de kommande två veckorna kommer röst- och bildfunktionerna att vara tillgängliga för ChatGPT Plus- och Enterprise-kunder. Medan röstfunktionen kommer att vara tillgänglig på iOS och Android (opt-in i dina inställningar), kommer bildfunktionen att vara tillgänglig på alla plattformar.

Leave a Reply