Slik skal jeg fortsette å engasjere og inspirere på scenen i 2025
Dagen etter at OpenAI lanserte ChatGPT 4o, slo Google på stortromma og lanserte neste generasjon Gemini-modeller som virkelig tar opp konkurransen med OpenAI og Microsoft.
Alt handlet om AI på Googles I/O-konferanse
Forventningene til årets utgave av Google I/O var mildt sagt store. Ikke minst var mange spente på hvordan Google ville respondere på at OpenAI lanserte ChatGPT 4o dagen før. Og det manglet ikke på AI-kunngjøringer og -nyheter i løpet av de knappe to timene som keynoten varte. Selv Sundar Pichai, Googles toppsjef, spøkte med hvor mange ganger (121) de hadde nevnt AI i løpet av eventet.
Når det er sagt, sitter jeg igjen både litt overveldet og frustrert over hele eventet, rett og slett fordi det ikke var så enkelt å få den fulle oversikten over hva som ble lansert, når det blir tilgjengelig for allmennheten og ikke minst når – og hvis – hva blir tilgjengelig for oss her i Norge.
Her er en detaljert – etter beste evne – oppsummering av det viktigste som ble annonsert under I/O 2024, og hvordan disse nyhetene vil forme fremtiden for både utviklere og oss sluttbrukere.
- Raskere og resonnerende Gemini-modeller: Google introduserte Gemini 1.5 Flash og Gemini 1.5 Pro som raskere og mer effektive versjoner av Googles AI-modell. Det mest oppsiktsvekkende her er at Google har gitt oss tilgang til 1 million tokens (til sammenligning har ChatGPT 4o en begrensning på 128.000 tokens). Det gjør at Gemini Pro-samtaler kan holde på konteksten tilsvarende 1.500 tettskrevne sider, 30 000 linjer med kode, eller en times lang video. 1 million tokens er det lengste av alle allment tilgjengelige chatboter i verden, og nesten 8x mer enn ChatGPT 4o.
Dette er en token: En «token» i denne sammenhengen, kan sees på som et stykke av den teksten som modellen behandler. Her kan det være alt fra et ord, et tall, et tegnsettingstegn, inkludert mellomrom, eller en del av et ord. Tokens er de grunnleggende byggesteinene som benyttes av både store språkmodeller, men i det store og hele av de fleste generative AI-tjenestene. For eksempel vil setningen «Jeg elsker kunstig intelligens» brytes ned ni tokens, hvorav fire tokens for ordene, i tillegg til tre mellomrom og et punktum.
- Gemini Pro til Gemini Advanced-abonnenter: Som Google One-abonnent med 5 TB lagring, har jeg fått gratis tilgang til Gemini Advanced ut juli 2024. Det betyr også tilgang til Gemini Pro (personlig synes jeg advanced høres mer avansert ut enn professional, men det er en annen sak). Som Gemini Advanced-abonnement får vi også snart tilgang til Live, en ny samtaleopplevelse på mobil. Med Live kan du snakke med Gemini og velge mellom forskjellige naturlig klingende stemmer. Du kan snakke i ditt eget tempo og til og med avbryte med spørsmål, noe som gjør samtaler mer intuitive. Samtidig foreligger det ingen informasjon når Gemini-appen blir tilgjengelig i Norge. Dessverre.
//Artikkelen fortsetter etter annonsen//
- Snakk med Google Foto: Ifølge Google lastes vi opp over seks milliarder bilder til Google Foto hver dag. Med Geminis multimodale evner vil Google redefinere hvordan vi kan søke i bildene og videoene våre ved å snakke til Google Foto. Ett av eksemplene de viste til var en person som spurte hva nummeret på bilskiltet hans var. Dessverre vet vi ikke når Google vil lansere tjenesten og når den eventuelt vil bli tilgjengelig i Norge.
- Gemini for Android: Google vil bygge kunstig intelligens direkte integrert i Android-operativsystemet. Tilsvarende forventer vel mange iPhone-brukere at Apple skal gjøre det samme, med eller uten et samarbeid med OpenAI. Geminis integrasjon skal blant annet gjøre det mulig å interagere med stort sett alt som skjer på Android-telefonen, som fra å oppsummere det du ser på en nettside, i et PDF-dokument eller hva videoen du ser på handler om.
- Utvidelse av Gemma-familien: Google utvidet også Gemma-familien med åpne AI-modeller som CodeGemma, RecurrentGemma og PaliGemma. Disse modellene drar nytte av den samme forskningen som Gemini, og PaliGemma er spesielt rettet mot multimodale bilde- og språkoppgaver. Selskapet ga også en teaser for Gemma 2.0, som vil bestå av en modell med 27 milliarder parametre.
- AI rett i mobilen og nettleseren: Google kunngjorde lanseringen av Gemini Nano og AICore-systemtjenesten, som skal gjøre det mulig å kjøre Gemini-modeller direkte fra Android-enheter, inkludert Pixel 8 Pro og Samsung Galaxy S24. Det betyr i praksis ekstremt mye raskere responstider og bedre personvern. Gemini Nano vil også integreres i Chrome-nettleseren, slik at utviklere kan dra nytte av kraftige AI-funksjoner uten å bekymre seg for skalerbarhet, kostnad eller personvern.
- AI-drevet søk og produktivitet: Google annonserte også «AI Overviews» i søk, hvor Gemini-modellen oppsummerer relevante resultater fra nettet i et oversiktlig format. Google Workspace fikk en rekke AI-drevne oppgraderinger, inkludert en AI-assistent som kan svare på spørsmål om møter, e-poster og annen bedriftsinformasjon.
- Tilpassede Gemini-agenter: Google lanserte «Gems», som lar brukere opprette skreddersydde versjoner av Gemini-assistenten. Disse Gems kan konfigureres til å ha ulike personligheter og spesialiserte ferdigheter, noe som åpner for en ny æra av personlige, AI-drevne hjelpere.
- Multimodal AI med Project Astra: Google presenterte også Project Astra, et multimodalt AI-prosjekt som kombinerer video, lyd og tekst for å gi brukerne en AI-assistent som kan forstå og respondere på verden rundt seg i sanntid. Project Astra kan for eksempel hjelpe brukere med å finne gjenstander ved å analysere omgivelsene.
//Artikkelen fortsetter etter annonsen//
Forbedret personvern og sikkerhet
Google brukte også mye tid under keynoten til å fremheve viktigheten av tilstrekkelig personvern og sikkerhet i deres AI-drevne tjenester. Brukerdata vil blant annet ikke bli brukt til å trene opp Gemini eller andre AI-modeller, og Google utvider også sitt system for vannmerking av AI-generert innhold, som nå inkluderer tekst og video. Google demonstrerte også en ny funksjon for å oppdage svindel fra sine Android-telefoner. Ved hjelp av kunstig intelligens vil telefonen lytte etter mistenkelige fraser i telefonsamtaler for å advare brukere om mulige svindelforsøk.
Kort oppsummert
Google ble (muligens) tatt på senga da OpenAI lanserte ChatGPT 3.5 tilbake til november 2022, og selv om ryktene om “code red” hos Google sies å være sterkt overdrevet, ble nok ikke Google mindre stresset over hvordan samarbeidet mellom Microsoft og OpenAI har utfordret Google sin forretningsmodell.
Og selv om “folk flest” har hørt om ChatGPT og ikke like mange har hørt om Bard eller Gemini, tror jeg det er altfor tidlig å avskrive Google. Tvert imot tror jeg nettopp Google er fryktelig godt posisjonert for AI-fremtiden, selv om det kanskje virker slik akkurat nå. Årets I/O-konferanse markerte i så måte en milepæl i Googles AI-utvikling, og satt på mange områder standarden for hvordan blant annet AI vil bli integrert i morgendagens smarttelefoner.