Sindre Sørensen, CALLMOO-prosjekt

 

Utvikling av ordliste for CALLMOO-"Dreistadt"

Denne rapporten er del av CALLMOO fase I - sluttrapport

 

Jeg ble ansatt på timebasis høsten 1998 for å samarbeide med Knut Olav Homlong om å lage en "bot". Vi startet med å skrive en rapport som inneholder ulike idéer i forhold til hvordan en bot beregnet på bruk innen språkopplæring kunne fungere og implementeres.

Vi kom fram til at søkbare ordlister vil være nyttige uansett implementasjon av bot. I tillegg kan slike ordlister være nyttige til annet bruk, blant annet som tradisjonell oppslagsfunksjon.

FreeBSD-prosjektet distribuerer et sett med ordlister (tysk-engelsk-tysk) som er til fritt bruk. (se f.eks. http://www.de.freebsd.org/~wosch/dict/dict.cgi)

Jeg installerte disse på serveren vår. Ordlistene er rene tekst-filer som søkes i ved hjelp av "grep", altså en relativ primitiv søkemekanisme. Ytelsen er likevel bra.

I tillegg til ordlistene fra FreeBSD-prosjektet har jeg lagt til en ordliste som inneholder ord som er endret etter den nylige tyske språk-reformen. IDS (Institut für deutsche Sprache, Mannheim) distribuerer denne sammen med "Das amtliche Regelwerk". (http://www.ids-mannheim.de/reform/). Ordlisten er nå søkbar via serveren vår på samme måte som de andre ordlistene.

Det eksisterer to grensesnitt mot ordlistene. Det ene grensesnittet blir distribuert sammen med ordlistene, og er web-basert. Dette er skrevet i perl. I tillegg til dette har jeg laget et MOO-grensesnitt, som bygger på perl-grensesnittet. Ved hjelp av MOO-grensesnittet kan en søke i ordlistene fra MOO, uten nødvendigvis å bruke web-grensesnittet direkte.

Den foreløpige implementasjonen av ordlistene finnes på

MOO-grensesnittet eksisterer foreløpig i form av en bok som kan søkes i omtrent slik:

 

Hva bør gjøres med ordlistene?

Jeg vil understreke at selv om ordlistene allerede i dag er operative, så er implementasjonen mer et prøveprosjekt og en basis for videre utvikling enn et ferdig produkt. Det finnes blant annet elektroniske tysk-ordlister som er vesentlig mer detaljrike (dvs. systematisk inneholder ordklasse, bøyningsformer, etymologi, brukseksempler, etc). Grunnen til at jeg valgte ordlistene som vi bruker i dag, er at de er gratis og til fritt bruk.

Selve søkemekanismen kan også gjøres mer finkornet, noe som vil bli nødvendig for mer avanserte "bot-er" og bruksmåter.

Det kan vurderes om kommersielle ordlister skal kjøpes inn. Her kommer isåfall lisens-spørsmål inn i bildet. I et så åpent system som vi bygger, kan det være et par juridiske problemer i forhold til videredistribusjon etc. Det kan nok være mulig å få til en god avtale med en kommersiell leverandør, så lenge prosjektet er ikke-kommersielt. Uansett er det sikkert enklest dersom vi klarer å skaffe til veie ordlister og systemer som i utgangspunktet er til fritt bruk og fri modifikasjon.

Et aktuelt alternativ er å bygge / utvide ordlister selv. En kunne f.eks. sette opp et kollaborativt system, der studenter, ansatte etc kan samarbeide om å oppdatere og utvide ordlistene, fortrinnsvis med et valideringssystem. Slik funksjonalitet kan eventuelt bygges inn i MOO f.eks i form av en bot som fungerer som "innsamler" av ord og uttrykk fra det aktuelle språk. Slik kan produksjonen av ordlistene også få en læringsfunksjon.

Selv om søkesystemet allerede i dag er temmelig raskt, vil det være mange fordeler med å overføre dem til et generelt database-system, f.eks. en SQL-database. Søkefunksjonene vil da være raskere, det vil bli enklere å modifisere strukturen, og enklere å lage ulike oppslagsfunksjoner fra forskjellige systemer (MOO, web etc).