Lars Törnqvist    E-post    Startsida    Uppåt 

Standarder för registrering och lagring av transkriberat svenskt dialektmaterial

Bakgrund

Sverige har sedan gammalt en mycket framskjuten ställning internationellt sett när det gäller dialektforskning, och i olika arkiv runt omkring i landet – först och främst då vid Språk- och Folkminnesinstitutet, SOFI, i Uppsala – finns det insamlat stora mängder dialektmaterial. Under den senare delen av 1800-talet började man systematiskt samla in sådant material, och man har fortsatt ända in till nutid. För tiden fram till ungefär 1930 föreligger materialet företrädesvis enbart i s k transkriberat skick, vanligtvis i form av en för hand nedtecknad intervju i en speciellt för svenskan utvecklad fonetisk skrift, landsmålsalfabetet. Därefter började man registrera intervjuerna på grammofonskivor, senare på magnetband. Det finns uppkattningsvis 5 000–10 000 timmar inspelat dialektmaterial runt omkring i landet, varav endast en bråkdel är transkriberat.

Detta material utgör en oerhörd kulturskatt för vårt land, både språkligt och innehållsligt, en skatt som särskilt när det gäller det inspelade materialet riskerar att bli svåråtkomligt i framtiden. Inte så mycket för att arkiven förstörs rent fysiskt utan därför att det redan nu föreligger svårigheter att finna personer som förstår de gamla dialekterna, som förstår den specialterminologi som fordom brukades, t ex inom jordbruket, och som dessutom har sådan utbildning, kunskap och intresse så att de kan tränas till att bli goda transkribenter. När det gäller sådant material som enbart föreligger i transkriberat skick är situationen kanske inte så alarmerande, ty dessa äldre nedteckningar är ofta skrivna med en prydlig och lättläst handstil, och det borde inte bli några större problem att skriva in dessa med de metoder som vi avser utveckla i projektet. Vi ser det som naturligt att redan inom projektets ram börja titta så smått på tekniken med s k text-till-talsyntes av dialekter. Det borde ligga helt inom möjlighetens ram att vi inom kanske 10 år kan få datorn att frambringa klingande ren östgötska från mitten av 1800-talet.

Projektet

Projektet går ut på att utveckla metoder och standarder för både hur inskrivningen av transkriberat material skall ske och hur texten sedan skall lagras inne i datorn. Vårt projekt bör ses som ett självständigt men ändå associerat till ett projekt under förberedelse vid SOFI i Uppsala under doc Lars Bleckert, vilket just går ut på att göra dialektarkiven där – både text och ljud – tillgängliga via Internet; SOFI är som myndighet av kulturdepartementet ålagd att göra detta. Vårt projekt är också mycket nära samhörigt med dialektdelen av ORD-projektet (Ortnamn-Runor-Dialekter) vid Linköpings universitet under ledning av prof Jan Paul Strid, där man genom en privat donation fått möjligheter att göra ett speciellt pilotprojekt för just Östgötadialekterna. Där har man t ex tagit fram en demonstrator som mycket övertygande visar på multimediateknikens användbarhet  i sådana här sammanhang.

De inmatade texterna skall så småningom länkas till motsvarande digitaliserade ljudfiler så att man t ex samtidigt kan läsa texten och höra den uppläst från originalinspelningen. Denna hopkoppling ingår i och för sig inte i det nu aktuella projektet, men vi samarbetar redan nu med forskare inom det s k SWEDIA-projektet, ett RJ-projekt syftande till ett storskaligt ihopsamlande och datorlagrande av moderna svenska dialekter.

I vårt projekt kan tre delmoment urskiljas:

1. Textregistrering

Delprojektet omfattar upprättande av noggranna anvisningar för yttre format för transkriptioner av dialektinspelningar samt utveckling av programvaror för registrering och konvertering av text.

2. Landsmålstecken

Delprojektet omfattar dokumentation av ljudvärdena för alla landsmålstecken och införande av landsmålsalfabetet i ISO 10646/Unicode.

3. Konverteringssystem

Delprojektet omfattar utveckling av regelstyrda system för överföring av transkriberad text dels till fonetisk skrift enligt IPA med olika noggrannhet, dels till ljudenlig skrift, dvs text skriven med vanlig ortografi men som ändå på något sätt indikerar uttalet. Figuren nedan visar exempel på konverterad text. Den översta texten är skriven med landsmålsalfabetet, i mitten visas samma text automatiskt konverterad till IPA och underst samma text automatiskt konverterad till ljudenlig stavning.

De två  första delmomenten – textregistrering och landsmålstecken – är utpräglat tekniska till sin karaktär. Delmoment 3 – konverteringssystem – är mer forskningsinriktat. Det är långt ifrån klart hur man transformerar en mer eller mindre noggrann fonetisk transkription till ett slags normalstavad, dialektal svenska. Blotta existensen av sådana dialektdatabaser som nu planeras hos SOFI, hos ORD i Linköping och i SWEDIA-projektet kommer säkert att dra till sig unga forskare, och vi kommer att få se mycket spännande forskning baserad på dessa i framtiden. Vi kan inte nog understryka hur viktigt detta delmoment på sikt kommer att vara. Som tidigare påpekats åligger det SOFI,  ORD och andra att göra sina arkiv tillgängliga för både forskning och för allmänheten, och om det skall vara någon mening med detta så måste också texterna kunna peresenteras på ett mer tillgängligt sätt. Man skall kunna studera sin egen dialekt utan att ha först utbildat sig i avancerad fonetisk transkriptionsmetodik. Landsmålstexten kommer, självklart, också att finnas i databasen, och med bara en knapptryckning kan man växla över till den i stället, om man så önskar.

 


© 2001 Benny Brodda och Lars Törnqvist

Uppdaterad 2001-03-10