Videre til indhold. | Videre til menunavigation

Sekundær menu

Matthias Buch-Kromann

Forskningsadjunkt, M.Sc., cand.ling.merc., dr.ling.merc.

Maskinoversættelse og modellering af sprog

Matthias Buch-Kromann

Forskningsadjunkt, M.Sc., cand.ling.merc., dr.ling.merc.

Matthias Buch-Kromann, 34 år

Fagområde: Datalingvistik (en tværfaglig kombination af sprogvidenskab, matematik og datalogi)

Det Frie Forskningsråds Ung Eliteforskerpris

Tildelt af Forskningsrådet for Kultur og Kommunikation (FKK)

Formålet med mit projekt er at lave et maskinoversættelsessystem, som kan oversætte tekster fra et sprog til et andet. Sådanne systemer findes allerede i dag. De bedste syste-mer kan lære at oversætte mellem to vilkårlige sprog ud fra et stort antal eksempler. Men systemerne er ikke fejlfrie og laver ofte nogle temmelig komiske oversættelser, fordi de oversætter ordene forkert eller sætter dem sammen på en forkert måde. Det skyldes, at disse systemer ikke forstår betydningen af den tekst, de oversætter, og ikke kender spro-gets grammatiske struktur. Målet med mit projekt er at lave en computermodel for, hvor-dan mennesker lærer sprogets grammatiske struktur og bruger denne struktur til at over-sætte mellem to sprog. Ved at indarbejde denne viden i maskinoversættelsessystemer vil vi få systemer, som kan ”lære” sprogets grammatiske struktur. Og dermed opnå en væ-sentligt bedre oversættelseskvalitet end den, vi kender i dag. Projektet bygger på min doktordisputats fra 2006.

Hvad er de forskningsmæssige udfordringer?

For at kunne modellere hvordan mennesker vælger den ”rigtige” oversættelse, skal jeg udvikle en model for, hvordan mennesker vurderer den relative sandsynlighed for de en-kelte oversættelsesmuligheder. Sproget er meget komplekst, så det kræver en kompliceret statistisk model, der tager højde for de mange forskellige delprocesser, der finder sted, når vi formulerer en tekst og derefter oversætter den. Det er der, så vidt jeg ved, ikke no-gen andre, som har forsøgt før.  Der er så mange oversættelsesmuligheder, at det ikke er nok at kunne modellere deres relative sandsynlighed. Jeg skal også lave en model for, hvordan mennesker finder frem til den bedste oversættelse så hurtigt, som de gør. Vi ved, at mennesker af og til ”skærer nogle hjørner” for at kunne lave beregningerne hurtigt. Det skal mit system også kunne. Det er der heller ikke nogen andre, som har forsøgt før. I hvert fald ikke på en måde, der minder om det, mennesker gør.

Hvad er de langsigtede perspektiver?

Mit projekt skal føre til en bedre forståelse af, hvad der foregår inde i vore hoveder, når vi bruger sproget. Og til en ny type maskinoversættelsessystem, der har en langt højere kvalitet, fordi systemet lærer sprogets grammatiske struktur og gør aktivt brug af den i oversættelsen.

Hvordan forholder projektet sig til områdets internationale udvikling?

Det store uløste problem i forskningen i maskinoversættelse er, at de bedste systemer ik-ke har nogen viden om sprogets grammatiske struktur, selv om vi ved, at det er en forud-sætning for virkeligt gode oversættelser. Mit forskningsprojekt er et bud på, hvordan man kan løse dette problem for alle sprog, herunder dansk.

Hvilke muligheder giver pengene fra DFF’s Ung Eliteforskerpris?

Pengene fra Ung Eliteforsker-prisen giver mig mulighed for at opbygge og videreudvikle en række store datasamlinger med detaljerede lingvistiske analyser af oversættelser. Så-danne datasamlinger er vigtige for at kunne afprøve mine teorier og lave et fungerende maskinoversættelsessystem.

Hvordan opstod din interesse for netop dette forskningsfelt?

Min far var professor i tysk ved Handelshøjskolen i København, så jeg lærte allerede som barn en del om sproget og dets struktur; og de mange vanskeligheder når man oversætter mellem to sprog. Dengang havde jeg en drøm om at konstruere en tænkende og talende computer og var derfor interesseret i alt, hvad der havde at gøre med matematik, sprog og kunstig intelligens. På universitetet læste jeg matematik og fysik og var godt på vej til at blive ren matematiker, da min far døde i en alder af 53. Hans død ændrede mit syn på til-værelsen. Selv om jeg fortsat elsker matematik højt og mener, det spiller en helt central rolle for videnskaben, fik jeg lyst til at lave noget, hvor jeg ikke skulle vente halvtreds år, før jeg vidste, hvad min forskning kunne bruges til i praksis. Jeg vendte derfor tilbage til min oprindelige interesse for sprog og tænkning. Valget af oversættelse skyldes, at det involverer alle de centrale problemer inden for feltet, så det er et godt springbræt til at nå en dybere forståelse af, hvad der foregår i vore hoveder, når vi tænker og taler – og hvor-dan vi kan få computere til at efterligne os. 

Lidt om mennesket bag forskeren

Min familie betyder alt for mig. Jeg er gift med Tine, som arbejder som aktuar og er-hvervs-ph.d. i forsikringsmatematik. Så der bliver snakket meget statistik og matematik hjemme hos os. Vi har en søn, August, på 18 måneder. Jeg havde fædreorlov, da han be-gyndte at tale. Som sprogforsker er det fascinerende at følge hans sproglige udvikling. Ikke mindst nu, hvor han snakker løs som et vandfald. Før vi fik August, spillede jeg vio-lin, men det er der ikke længere tid til. Nu går den smule fritid, jeg har, til et maskinover-sættelsesfirma, som jeg har startet med to kolleger, og som måske på sigt kan udvikle sig til noget, vi kan leve af.

Forskningsrådets begrundelse for tildelingen af prisen

Matthias Buch-Kromann er 34 år, ekspert i datalingvistik og allerede dr.ling.merc. Hans doktorafhandling fremlægger en ny grammatikteori, der afbilder menneskers ubevidste ana-lyse af sprogs struktur. Hans eliteprojekt vil demonstrere teoriens bæredygtighed i praksis ved at programmere et system til automatisk grammatikopbygning og til maskinoversættel-se. Resultaterne vil åbne nye muligheder for automatisk sprogbehandling både teoretisk da-talingvistisk og i sprogteknologiske systemer. Han har en omfattende produktion og har væ-ret den drivende kraft i opbygningen af en dansk databank med syntaksanalyserede sætnin-ger. Han har gæsteforelæst på førende amerikanske og svenske datalingvistikinstitutioner og har modtaget flere priser.

Yderligere oplysninger om baggrunden for prisen

Formand for Forskningsrådet for Kultur og Kommunikation, professor Kirsten Drotner.

Telefon: 3544 6315; E-mail:

Yderligere oplysninger om projektet

Matthias Buch-Kromann. Telefon: 3815 3166 (arbejde), 4458 5585 (privat),

6085 5585 (mobil); E-mail:

Forskningsprojektets videnskabelige titel

The Discontinuous Grammar System. Et statistisk dependensbaseret computersystem til modellering af menneskelig syntaksprocessering, grammatiklæring og oversættelse

Bevilling fra Forskningsrådet for Kultur og Kommunikation

1,8 mio. kr.

Ansættelsessted

Center for Computational Modelling of Language, Institut for Internationale Sprogstudier og Vidensteknologi, Handelshøjskolen i København

Forskningsprojektet udføres på

Center for Computational Modelling of Language, Institut for Internationale Sprogstudier og Vidensteknologi, Handelshøjskolen i København (pt. under forhandling)

Modtager af Videnskabsministeriets EliteForsk-pris på 1 mio. kr

Bevillinger fra Danmarks Grundforskningsfond