Denna sida har skapats som komplement till föredraget 'Korpuslingvistik på Internet - resurser för språklärande ' presenterat på seminariet 'IT inom språkundervisningen' (arrangerat av Språkvetenskapliga fakulteten vid Uppsala universitet, 3 mars 2000). Frågor eller kommentarer välkomna till ylva.berglund@engelska.uu.se

 _________________________________________________ 

 

Korpuslingvistik på Internet - resurser för språklärande

Ylva Berglund

Engelska inststiutionen, Uppsala universitet

ylva.berglund@engelska.uu.se

____________________________________________________________

Denna sida är i första hand gjord som ett komplement till presentationen på seminariet IT i språkundervisningen (2000-03-03). Nedan finns först en innehålldeklaration med länkar till de olika avsnitten. Varje avsnitt inleds sedan med en överskrift och en sammanfattning i punktform av vad som behandlas. Sedan följer ett kortare eller längre diskussionsavsnitt där det också finns länkar till andra, externa, sidor på nätet.

Avsnitt

______________________________________________________________________________

 

Vad är korpuslingvistik?

Användandet av datorläsbar text och dataprogram för att lära (om) (ett) språk.

Detta är en grov definition, och en som inte alla korpuslingvister håller med om. De flesta anser att för något ska kallas 'korpuslingvistik' måste det vara baserat på en korpus (se nedan) och inte vilken datorläsbar text som helst. Hur man använder dataprogram för att lära (om) (ett) språk varierar också. En del korpuslingvister anser att man måste kunna programmera för att hålla på med korpuslingvistik, medan andra menar att så snart man använder datorläsbara korpusar handlar det om korpuslingvistik, även om man inte använder datorer för att analysera materialet. Den här presentationen är en introduktion till korpuslingvistik och korpuslingvistiska metoder, och man behöver inte ta ställning i frågan om vad som ska kallas korpuslingvistik för att kunna använda sig av informationen här.

______________________________________________________________________________

För korpuslingvistik krävs:

datorläsbar text, naturligt förekommande språk, (representativt)

konkordansprogram (söka, visa, sortera, räkna)

vad kan man göra?

hur gör man?

Trots att intresset för korpuslingvistik har ökat under de senare åren, finns det ett visst motstånd mot att pröva på det. Detta kan ha flera orsaker. Det kan handla om att man inte har tillgång till de resurser som behövs, och att man saknar möjlighet att göra de investeringar i tid och pengar som krävs för att man ska kunna komma igång. Det kan också handla om att man drar sig för att pröva på att använda sig av korpuslingvistik för att man förutsätter att det ställer stora krav på datorkraft och datorvana. I de flesta av dessa fall kan korpuslingvistik på Internet vara en lösning. Genom att använda sig av resurser på nätet kan man inte bara lära sig mer om korpusanvändning, utan man får också tillgång till korpusar och redskap utan att behöva betala något och utan att behöva kunna mer om datorer än hur man använder en nätläsare (som tex Netscape eller Internet Explorer). Korpuslingvistik på Internet kan fungera som en introduktion till området, ett komplement till andra metoder, eller som en resurs i sig själv.

______________________________________________________________________________

Vad är en korpus?

Det finns ingen uttalad, allmänt känd och spridd definition av vad en korpus är. Olika skolor har olika uppfattning. En del menar att vilken text som helst är en korpus om man använder den som bas för språkstudier, medan andra har betydligt snävare definitioner (se, tex, boken Corpus Linguistics av McEnery & Wilson (1997), BNC-sidan, Systematic Dictionary of Corpus Linguistics. På W3-Corpora sidorna finns också information och en hel del länkar (som dock behöver uppdateras). I den här presentationen används 'korpus' som beteckning på en datorläsbar text(samling) av naturligt förekommande språk. Med 'naturligt förekommande språk' avses talade (och transkriberade) eller skrivna, sammanhängande texter eller textavsnitt, och inte en samling som består av små bitar av 'vanligt' språk, som tex. alla meningar i presens, alla idiom, alla ord som börjar på X etc. (Även om man kan använda vissa korpuslingvistiska verktyg och metoder på en dylik samling 'småbitar', skulle de här betecknas som 'databas' eller 'lista' snarare än 'korpus'). Istället för att diskutera hur en korpus ska vara sammanställd för att vara representativ för en viss typ av språk, nöjer vi oss här med att säga att det ligger i användares intresse att ta reda på vad det är för korpus som han/hon använder. Hur korpusen är sammansatt kan avgöra hur väl den representerar det språk man vill studera. Det är nog uppenbart för alla att om man avser studera modernt engelskt talspråk lämpar sig en samling av Shakespeares sonetter inte särskilt väl som studiematerial. En korpus av skönlitteratur från 1960-talet kan också vara ett dåligt val. Se, tex. BNC Users' Reference Manual eller BNC-sidan om korpussammansättning.

______________________________________________________________________________

Typer av korpusar

Det finns en mängd olika korpustyper. Nedan följer en presentation av några, med länkar till vidare information.

En balanserad korpus består av olika typer av text i bestämda proportioner, avsett att representera ett språk eller en aspekt av ett språk. Den första datorläsbara korpusen, Brown, bestod av en million ord, skriven amerikansk engelska från 1961, och har fått ett antal efterföljare, tex brittisk engelska (LOB), indisk (Kolhapur), mfl. BNC är en stor balanserad korpus sammanställd på 1990-talet, bestående av 100 millioner ord i bestämda, fördefininerade proportioner.

Till skillnad från balanserade korpusar, består monitorkorpusar inte av bestämda proportioner av olika texttyper utan sammansättningen växlar beroende på vad som läggs till den ständigt växande samlingen. Bank of English en stor monitorkorpus som f.n. består av över 300 millioner ord. Delar av den är sökbar on-line (se Cobuild Direct)

Parallellkorpusar består av texter på två (eller flera) språk; böcker på orginalspråk och deras översättningar eller dokument publicerade på flera språk (tex. EU-dokument). Parallellkorpusar är användbara för, tex. översättare, och deras potential för användning inom språkundervisningen börjar uppmärksammas mer. Exempel på parallellkorpusar på nätet är Hansard - material från det kanadensiska parlamentet som finns på både engelska och franska, samt material tillgängligt genom Språkdatas demo. I Chemnitz pågår ett projekt där man använder sig av en tysk-engelsk parallellkorpus för skapande av en internet-baserad grammatik.

Flera projekt pågår där man skapar jämförbara korpusar; korpusar med material som ska vara liknande, tex från en viss genre eller tid sammanställt i enlighet med vissa principer. Som exempel på jämförbara korpusar kan tex. nämnas alla de korpusar som skapats efter modell av den första datorläsbara korpusen, Brown, tex. LOB (brittisk engelska 1961), Frown (amerikansk engelska 1991), FLOB (brittisk engelska 1991) m.fl. Inom ICE-projektet skapar man korpusar med tal-och skriftspråk från olika länder där engelska talas, medan ICLE-projektet går ut på att man bygger korpusar av engelska producerat av andraspråksinlärare i olika länder (liknande projekt pågår i Uppsala: Uppsala Student Engelish USE).

Det finns ett stort antal korpusar som består av språk av något visst slag. Nämnas kan, tex. COLT (talspråk producerat av tonåringar i London på 1990-talet), USE (engelska skriven av studenter vid engelska inst. Uppsala), TIMIT (talad amerikansk engelska med fonetisk transkription), Helsinki Corpus (diakron korpus med engelska texter från fornengelsk tid och framåt).

______________________________________________________________________________

Korpusar på nätet

On-line

På Internet kan man söka on-line i ett antal korpusar, gratis eller mot ersättning. Bland de resurser som är fritt tillgängliga kan nämnas BNC, Bank of English, Hansard, Språkbankens data. Gemensamt för dessa resurser är att mängden information man kan få är begränsad, antingen för att inte hela korpusen är tillgänglig, för att bara ett visst antal träffar visas, eller för att man inte kan få uttömmande information om de texter som ingår i korpusarna.

BNC- sök efter ett ord eller fras. Max 40 träffar visas, men information om totala antalet förkomster ges.

Bank of English - möjligt att söka i delar av korpusen. Max antal träffar som visas är. Funktion för att studera kollokationer.

Hansard - sök efter ord på engelska (eller franska). Ordet visas i de meningar det förekommer, tillsammans med den franska (engelska) parallelltexten.

Språkbankens data - sök efter ett ord och se hur ofta det förkommer i olika korpusar, tex i tidningstexter från åren 1995 till 1998.

Ladda ner

Det finns korpusar som man kan ladda ner från nätet, gratis eller mot ersättning, för att använda på sin egen dator. Utbudet är stort och ständigt växande. Bland distributörerna av korpusar finns, tex., Linguistic Data Consortium (LDC), European Language Resources Association (ELRA), Multilingual Text Tools and Corpora (MULTEXT), m.fl.

Annan text

Korpuslingvistiska metoder och verktyg kan användas på vilken text som helst så länge den är i datorläsbar form. (Många anser dock att det inte är korpuslingvistik om man inte använder sig av korpusar (vanligen balanserade, representativa sådana)). Det finns en stor mängd datorläsbar text på nätet, tex. tidningar och tidskrifter, litterära texter och facktexter. När man använder sig av texter på nätet är det viktigt att man inte bryter mot några copyrightregler. Det finns (mig veterligen) inga allmänna, internationella lagar om copyright för material på Internet. Om man vill vara på den säkra sidan kan man se till att bara använda texter som inte omfattas av copyright. Detta omfattar tex. en del äldre material och texter där det uttryckligen står att de inte täcks av copyright. (mer information om copyright finns bl.a. här )

Exempel på sidor där man kan hitta texter är:

Mer information om att använda texter från Internet finns hos CTI . Fler adresser till texter på nätet finns, bl.a. hos ICAME, W3-Corpora, Michael Barlow.

 

Hela nätet

Man kan använda hela nätet som en enda stor korpus för vissa typer av sökningar. Om man tex. vill se om ett uttryck alls förekommer, eller jämföra vilket av två ord/fraser som är vanligast kan man använda sig av ett vanligt sökprogram (tex. Altavista) och där skriva in frasen eller ordet. Sökmaskinen söker efter detta och talar om hur många gånger det förekommer. Detta kan ge en indikation om uttrycket alls används och om det är vanligare än ett annat uttryck som sökts på samma sätt. Vad man bör ha i åtanke är dock att det finns många olika typer av text på Internet. Att ett ord finns där behöver inte betyda att det används av någon som skriver på sitt modersmål eller att det är allmänt funnet i språket som helhet. Vissa ämnesområden är kanske mer representerade på nätet och då kommer ord som används inom dessa specialområden att återfinnas mer än ord från ämnesområden där man inte publicerar sig på nätet.

*Nyhet* WebCorp En ny resurs under utarbetande i Liverpool. WebCorp är ett sökverktyg som söker efter ord/uttryck på nätet och presenterar resultatet som konkordanser.

______________________________________________________________________________

Information på nätet

Det finns mycket information om korpusar och korpuslingvistik på nätet.

Allmän

Bland de sidor där det finns mycket information och många länkar till andra sidor är:

Corpus Linguistics by Michael Barlow

W3-Corpora

ICAME

mfl

Artiklar, referenser

Bengt Altenberg's ICAME bibliography över korpusbaserade publikationer

UCREL - University centre for Computer corpus research on language, Lancaster.

BNC - 'BNC-related publications and presentations'

M. Barlows sida - 'Online Papers, Theses, etc. Related to CL'. Ordnad enl författare eller ämne

mfl.

Tutorials - övningar

Concordances and Corpora av Catherine N. Ball

W3-Corpora Tutorial

______________________________________________________________________________

Program/verktyg

specifika för vissa datorer el. allmänna

Det finns en mängd program gjorda för att användas inom korpuslingvistik. En del är framtagna för att användas med en viss korpus (tex SARA för BNC), medan andra går att använda på vilken text som helst (ev. efter att denna förbehandlats på något sätt). Exempel på allmänna korpusprogram är Wordsmith och Qwick. På Internet kan man hitta information om program, och man kan också - gratis eller mot en ersättning - ladda ner korpusprogram. Vad programmen gör och hur väl de fungerar för olika uppgifter varierar. Det finns dock vissa huvudfunktioner som återfinns i de flesta program; funktioner som är till stor hjälp när man vill ägna sig åt korpusbaserade undersökningar. Dessa basfunktioner är

söka (programmet söker efter en ord/fras/teckenkombination som användaren specificerar)

visa (programmet visar de förekomster av det sökta ordet, frasen etc, som finns i korpusen). Ofta visas träffarna som konkordanser (KWIC), de sökta ordet med en viss mängd kontext.)

räkna (programmet anger hur många gånger den sökta strängen förekommer, ev med angivande av hur många gånger per X antal ord strängen förekommer, i hur många olika texter ordet återfinns, etc)

sortera (programmet sorterar konkordanserna efter ord före eller efter den sökta strängen)

ta bort (det är möjligt att ta bort konkordanser man inte vill studera vidare, antingen genom att användaren identifierar dem eller genom att programmet automatiskt och slumpmässigt reducerar antalet)

märka (användaren kan märka exempel och sedan, tex, sortera konkordanserna efter märkningen)

kollokationer (programmet räknar ut hur många gånger olika/vissa ord förekommer med sökordet och räknar ev ut hur sannolik kombinationen är i förhållande till hur ofta orden förkommer i korpusen som helhet)

Bland de program som man kan få pröva gratis finns Qwick, Microconcord och Concordance (30 dagar). Mer information om korpusprogram finns, bla. på ICAMEs hemsida och på Michael Barlows sida. De flesta programmen är gjorda för att användas på PC, men det finns också program som går att använda på Mac, tex. CONC. Den språkvetenskapliga fakulteten har en licens för det kanske mest använda och uppskattade programmet, Wordsmith. Programmet finns installerat på datorerna i datorsalarna. Mer information om Wordsmith (och en allmän demo) finns på konstruktören Mike Scotts hemsida. För infomation om fakultetens licens, kontakta Donald MacQueen, Engelska inst.

 _____________________________________________________________________________

Mer information

Ett bra sätt att lära sig mer om korpuslingvistik är att pröva på det. Om man vill läsa mer finns det en hel del bra böcker. Corpus Linguistics av McEnery & Wilson (1997) är en omfattande grundbok som också till stora delar finns tillgänglig på nätet (information om annan litteratur finns bl.a. på W3-Corporasidan). Mer information om konkordanser finns på Collocations Homepage och på Concordances and Corpora av Catherine N. Ball. Exempel på vad man kan använda korpusar till och möjlighet att göra sökningar on-line finns också på W3-Corporasidorna ('Tutorial'). Corpora är en e-maillista där man kan ställa frågor och få svar samt ta del av diskussioner rörande olika aspekter av korpusanvändande (det finns också ett arkiv med gamla brev). En annan, nystartad lista är Corpus Linguistics and Language Teaching (CLLT). Tidskriften ICAME Journal kommer ut en gång per år och finns också tillgänglig på nätet. International Journal of Corpus Linguistics (IJCL) kommer ut med två nummer per år.

 _____________________________________________________________________________

Updated 2000-05-06 by Ylva Berglund URL: http://hem2.passagen.se/ylvaberg/ITDAG.htm