Claude Code ble videoprodusenten min. Det burde få flere enn meg til å reagere

Jeg lot kunstig intelligens gjøre hele videoproduksjonen, fra klipping og animasjon til lyd og fargegradering, mens jeg selv tok rollen som regissør. I denne artikkelen går jeg ned i detalj på hvordan Claude Code faktisk fungerte som videoprodusenten min for å lage en reklamefilm for Emirates fra Mera Peak-ekspedisjonen.
Kommentarene begynte å tikke inn ganske raskt etter at jeg publiserte artikkelen om at Claude Code ble videoprodusenten min. Noen var oppriktig imponerte. Andre var nysgjerrige på hvilken toolchain som lå bak. Og noen stilte de mest betimelige spørsmålene av alle, om hvor detaljert manuset mitt egentlig var, hvor mye av dette teknologien kunne finne ut av selv, og hvorvidt dette i realiteten handlet om at jeg fortsatt var den som satt med visjonen, manuset og kuratering av klippene.
Det var mange spørsmål som fortjente ordentlige svar. I den første artikkelen min gikk jeg gjennom resultatet, betydningen og refleksjonene rundt det hele, men jeg gikk ikke spesielt dypt inn i det tekniske, og heller ikke inn på hvor mye forarbeid, styring og kuratering jeg faktisk la inn i prosessen. Nå som jeg har hele den transkriberte dialogen mellom Claude og meg foran meg, er det på sin plass å gjøre akkurat det.
La meg avlive den største myten først. Ingen del av denne produksjonen var en knapp jeg trykket på, for så å lene meg behagelig tilbake.
Da jeg kom hjem fra Nepal satt jeg igjen med over 1.000 bilder og videoklipp. Til denne filmen, som mest av alt er en reklamefilm for Emirates, hadde jeg brukt først et par timer til å finne frem til 63 videoklipp som jeg hadde trimmet ned til et sted mellom 10 og 20 sekunder, slik at Claude hadde tilstrekkelig med frames å jobbe med. De aller fleste klippene var MOV-filer, noen var MP4. Og alle var i 4K-oppløsning.
Til Claude beskrev jeg så i detaljer den historien jeg ville fortelle, med tidsangivelser og spesifikk tekst jeg ville ha som overlegg. Jeg hadde organisert klippene i én nummerert mappe, der hvert klipp hadde fått et filnavn som 1.mov, 2.mov og videre oppover. I klippene der jeg snakket direkte til kamera, hadde jeg lagt inn «talking head» som en del av filnavnet, slik at Claude Code skulle vite at musikken måtte dempes og lyden fra klippet løftes frem. I tillegg hadde jeg brukt ChatGPT og Suno til å utvikle et dedikert musikkspor jeg kalte «Mera Peak, Extra, Between Worlds», der selve låten varer i litt over fem minutter og har beats som lot seg bruke til klippovergangene.
Dette forarbeidet tok meg anslagsvis mellom fire og fem timer, før Claude kunne begynne på den første utgaven av videoen. Senere, da jeg ba om endringer i andre og tredje iterasjon, leverte jeg instrukser ned på sekundnivå, basert på faktiske observasjoner jeg gjorde mens jeg så gjennom videoen med notatblokk.
Flere av dere har spurt om Claude Code kan gjenkjenne hva videoene viser av seg selv, slik at den selv kan foreslå tidskoder og B-roll. Det korte svaret er at den foreløpig ikke kan det på en god nok måte. Den «ser» ikke at Mount Everest står bak skulderen min i ett bestemt klipp. Den leser filnavn, varighet og det jeg forteller den. Det er her den virkelige jobben ligger, og det er dette som skiller en grei video fra en veldig god video.
Det var mange som hadde spørsmål om det rent tekniske og som etterlyste innsikt i toolchainen. Claude Code bygget ikke videoen i et tradisjonelt videoredigeringsprogram som Premiere, Final Cut eller Filmora. Selv har jeg i mange år sverget til Filmora til mine YouTube-videoer. I stedet brukte den Remotion, som er et rammeverk som lar deg lage videoer programmatisk i React og TypeScript.
Enkelt forklart betyr det at videoen ble skrevet som kode, ikke klippet sammen i et grensesnitt. Hver scene ble strukturert som en komponent, altså en selvstendig kodeblokk med logikk og innhold. Claude Code satte opp fire segmenter som ble bundet sammen i en egen datamodell, og utviklet gjenbrukbare komponenter for videobakgrunn, tekstanimasjoner og en svart outro.
I tredje iterasjon laget den til og med en helt egen Altitude Counter-komponent som telte opp fra 5.900 til 8.849 meter over havet, plassert nøyaktig over toppen av Mount Everest i bildet. Fonten ble byttet til Bebas Neue Bold via @remotion/google-fonts, noe jeg ba om spesifikt fordi jeg er svak for den fonten. Hele prosjektet ble rendret gjennom Node.js, med en Chromium Headless Shell i bakgrunnen som behandlet hver enkelt frame.
For klippene med talking head utviklet Claude Code en ducking-funksjon, som automatisk senket musikkens volum til 25 prosent mens jeg snakket, og løftet det tilbake når jeg var ferdig. Den samme logikken ble brukt for naturlyden fra de øvrige klippene. Vind, vann og pusten min ligger på 20 prosent, akkurat nok til å føles nært uten å drukne musikken. Fargegraderingen ble satt mot «dramatic warm», noe Claude Code tolket godt allerede på første forsøk.
Dette er vesentlig å forstå. Jeg brukte ingen plugins, ingen MCP-koblinger og ingen eksterne redigeringsprogrammer. Verktøykjeden besto av Claude Code i terminalen på min MacBook Air M2 og Remotion som selve byggverktøyet. Det var det. Det høres enkelt ut, men det er nettopp det som gjør prosessen så krevende, fordi jeg ikke kunne dra et klipp inn i en tidslinje og slippe det der. Jeg måtte beskrive det, presist, med ord.
Det skal også legges til historien at til den versjonen som ble publisert på YouTube, så har jeg kjørt det ferdige resultatet gjennom nettopp Wondershare Filmora for å fargegradere slik jeg har gjort med flere av mine ekspedisjonsvideoer.
Flere har spurt hvor lang tid det tok fra første prompt til ferdig film, og svaret har to lag.
Den aller første korte prototypen min på 60 sekunder, i vertikalt 9:16-format for sosiale medier, tok omtrent 40 minutter fra jeg skrev første prompt til MP4-filen lå klar på skrivebordet. Det inkluderte installasjon av Node.js, nedlastning av Remotion-biblioteket og Chromium, og selve rendering-jobben som i seg selv tok mellom 10 og 25 minutter.
Men den egentlige filmen, som er 5 minutter og 8 sekunder lang i 16:9-format, krevde tre iterasjoner fordelt over cirka to døgn. Inkludert tre ufrivillige pauser på to timer for å vente på at Claude skulle resette mine tokens. (Jeg kunne selvsagt ha oppgradert til en dyrere versjon, men ville se om det i det hele tatt lot seg gjøre for det rimeligste Pro-abonnementet)
I første iterasjon beskrev jeg oppdraget i detalj. Jeg ga Claude Code segmentstrukturen, ducking-reglene for talking heads, hele manuset, musikken og detaljene for outroen. Resultatet var en grei, men ikke en god video. Fading mellom klippene var for flytende, fonten var ikke helt min stil, og lyden fra naturen var dempet helt bort fordi jeg ikke hadde sagt noe annet. I tillegg var det antydninger til dårlig framing på A- og B-rollene mine.
I andre iterasjon leverte jeg 24 konkrete tekstendringer på sekundnivå, ba om Bebas Neue Bold på all tekst, clean cuts i stedet for fades mellom klippene, og ambient lyd på 20 prosent i alle klipp som ikke var talking head. Hver eneste endring var en instruks jeg måtte skrive ut for hånd, fordi Claude Code ikke vet hva som ser bra ut før den får det fortalt. Dette er prosessen som var mest tidkrevende. I den andre iterasjonen hadde Claude også rettet opp i framing-utfordringene.
I tredje iterasjon leverte jeg ni finjusteringer, deriblant høydetelleren som skulle stige fra 5.900 til 8.849 moh over Everest-klippet, todelte tekstplakater sentrert over to linjer, og en ny formulering i Emirates-takkemeldingen på slutten. Claude Code svarte metodisk, skrev om eksisterende komponenter og opprettet nye, før den satte i gang rendering.
Hver render tok et sted mellom 45 og 75 minutter. Det ble til dels mye venting, og jeg rakk å bli utålmodig et par ganger. Spesielt fordi du ikke ser progresjonen. Men selve dialogen med Claude Code var ikke flaskehalsen. Den faktiske tiden jeg brukte på å gi instrukser summerte seg til et par timer effektiv interaksjon, fordelt over forarbeidet, korrigeringene og gjennomgangen av hver nye versjon.
En av kommentarene jeg satte mest pris på, handlet om akkurat det som filmen ikke leverer på. Nemlig et spørsmål som gjør at publikum vil se hele greia. «Klarer han det? Hva skjedde i det dramatiske øyeblikket? Hvordan forandret det ham?«
Det er en observasjon jeg kjenner meg godt igjen i. Mera Peak-filmen jeg publiserte er en reiseskildring med høy produksjonskvalitet, men den er ikke en dokumentar med klassisk narrativ spenning. Det var heller ikke målet med denne videoen, som mest av alt skulle være en reklamefilm for Emirates, som jeg også vil bruke på mine foredrag.
Den “ekte” Mera Peak-filmen kommer på et senere tidspunkt. Og den vil jeg nok sannsynligvis redigere selv, på “den gamle” måten.
Jeg liker å være tydelig på tallene – altså tidsbruken – så her er de uten pynt.
Jeg sitter igjen med en film jeg er stolt av, men enda mer igjen med en erkjennelse. Verdien ligger ikke lenger i selve arbeidet med å klippe, transkodere, fargegradere eller animere. Den ligger et helt annet sted. Verdien ligger i å ville noe, å vite hva man vil, og å kunne beskrive det presist nok til at teknologien kan hjelpe deg dit. Det er akkurat dette jeg mener når jeg stadig understreker at vi må kontrollere teknologien, og ikke omvendt. Den største trusselen er ikke at AI tar over jobbene våre, men at vi mister evnen til å tenke selvstendig, drømme stort og fortelle historier som beveger noen.
Jeg håper denne gjennomgangen svarer på de fleste spørsmål dere satt igjen med. For dere som vil grave enda dypere, har jeg også lagt ved hele dialogen med Claude Code, slik at dere kan se med egne øyne hvordan hver iterasjon ble til.
Bilder og illustrasjoner: ChatGPT