torsdag 2 juli 2009

Ordfrekvenser på Google Book Search

Google Books-utvecklarna ligger inte på latsidan. Common Terms and Phrases kallas en ny moln-funktion som visar de vanligaste orden och fraserna i en bok. Ju större teckenstorlek, desto högre frekvens. Tills vidare är funktionen begränsad till ett fåtal böcker ('some of our books').

I inlägget om den nya funktionen på bloggen Inside Google Book Search berättar utvecklaren Diego Puppin om den italienske forskaren Mario Alinei som redan i slutet av 60-talet använde datorn i sina studier av det italienska ordförrådet. Det var en mödosam process där en enda körning kunde kräva flera dagars arbete. Nu tar det bara några sekunder att få fram samma - eller bättre - resultat.

Sverige var också tidigt ute på det här området. Den kände Göteborgs-professorn och Akademi-ledamoten Sture Allén använde datorstöd redan i sin doktorsavhandling 1965. 1970 publicerades första delen av Nusvensk frekvensordbok, ett stort datorbaserat lexikonprojekt under Alléns ledning. Källmaterialet utgjordes av hålremsor från svenska dagstidningar.

Inga kommentarer:

Skicka en kommentar