Språkförsvaret

En översikt över maskinöversättningsverktyg och hur man kan förbättra dem för vetenskaplig litteratur

Av Nätverket Språkförsvaret - 2024-05-02 13:00

(Denna text är översatt från "Overcoming Language Barriers in Academia: Machine Translation Tools and a Vision for a Multilingual Future" i BioScience oktober 2022)


De tidigaste metoderna för maskinöversättning använde noggrant programmerade språkliga regler och mycket stora ordböcker, men de hade begränsad framgång eftersom språket är fullt av tvetydigheter och datorer inte hade tillgång till den typ av kunskap om verkligheten och sociala interaktioner som människor använder för att tolka språk (Way 2020). Efter att internet introducerades och den ökande trenden med att producera texter i digital form rörde sig maskinöversättningsforskarna bort från lingvistiska metoder och mot datadriven maskinöversättning, som utnyttjade datorernas styrkor (t.ex. mönstermatchning, snabba beräkningar). Runt millennieskiftet började det dyka upp statistiska maskinöversättningssystem, bland annat tidiga gratisverktyg på nätet som Google Translate. I statistisk maskinöversättning matade utvecklarna datorn med stora mängder tidigare översatta texter, och systemet använde dessa exempel för att beräkna sannolikheten för att en viss fras skulle översättas på ett visst sätt i en framtida text (Way 2020). De statistiska maskinöversättningsverktygen gav bättre kvalitet än de lingvistiska metoderna, men det fanns fortfarande mycket som kunde förbättras. En annan datadriven metod, så kallad neural maskinöversättning, dök upp i slutet av 2016 och har inneburit ytterligare ett steg framåt när det gäller översättningskvaliteten. I dag använder de flesta maskinöversättningsverktyg artificiella neurala nätverk i kombination med tekniker som bygger på artificiell intelligens, t.ex maskininlärning (Forcada 2017). Dessa tekniker kräver att utvecklarna förser maskinöversättningssystemet med många träningsexempel på originalkälltexter och översättningar av dessa för att systemet ska lära sig. Därför är det lättare att anpassa översättningsverktygen till språk som används ofta eller språk med fler sådana exempel. Även om de inte är perfekta utgör neurala maskinöversättningssystem en bättre utgångspunkt än äldre maskinöversättningssystem, som förlitade sig på lingvistiska eller statistiska metoder. Resultaten från neurala maskinöversättningssystem kan användas för grundläggande kunskapsinhämtning eller som ett första utkast som sedan kan förbättras (t.ex. för akademiskt skrivande; Parra Escartín och Goulet 2020). Allt fler människor använder neurala maskinöversättningsverktyg eftersom de är enkla att använda och finns tillgängliga gratis på nätet (t.ex. DeepL och Google Translate; Bowker 2021).


Att använda maskinöversättningsverktyg kräver dock fortfarande gott omdöme, vilket är anledningen till att det finns ett behov av maskinöversättningskunskap (Bowker och Ciro 2019, Bowker 2021). Maskininlärningstekniker är mycket känsliga för mängden och kvaliteten på deras träningsdata. För att fungera väl behöver maskinöversättningssystem inte bara tillgång till enorma mängder tidigare översatta texter och motsvarande originaltexter, utan även till texter av god kvalitet som är relevanta för det aktuella ämnet (Chu och Wang 2020). Det språk som används inom specialiserade områden innehåller till exempel många tekniska termer och konstruktioner som inte är en del av vardagsspråket. För att ett maskinöversättningssystem ska kunna översätta texter inom biologi på ett korrekt sätt måste det därför förses med miljontals exempel på tidigare översatta texter från just detta område. Dessutom skulle dessa exempel behöva täcka alla önskade språkkombinationer (t.ex. engelska och franska, kinesiska och hindi, engelska och kinesiska). I vissa fall, när ett visst språkpar har relativt få översatta texter tillgängliga, kan bristen på träningsdata övervinnas genom att använda ett allmänt talat språk som ett pivotspråk (t.ex. att översätta från spanska till kinesiska med engelska som mellanled), även om denna metod kan sprida fel (Kim et al. 2019). På samma sätt som för talad kommunikation ökade den senaste covid-19-pandemin snabbt behovet och användningen av kommunikationsplattformar online som tillhandahåller undertexter på flera språk. Om man kombinerar två ofullkomliga tekniker (maskinöversättning och taligenkänning) kan det dock leda till fler översättningsfel (Sulubacak et al. 2020), på samma sätt som när man använder pivotspråk.


Det finns tydliga steg som forskare och utvecklare av maskinöversättningsverktyg kan ta för att förbättra implementeringen av teknik i vetenskaplig översättning. En samlad insats för att tillhandahålla öppet tillgängliga, mänskligt verifierade och högkvalitativa översättningar av sammanfattningar i vetenskapliga tidskrifter skulle bidra avsevärt till att generera de data som krävs för att träna maskinöversättningssystem. För närvarande tränas gratis översättningsverktyg online främst på allmänspråkliga data snarare än på vetenskaplig jargong eller specialspråk. Forskare och verktygsutvecklare skulle kunna samarbeta om verktyg med öppen tillgång som tränar maskinöversättningssystem för specialiserade forskningsområden. Samtidigt skulle vi kunna uppmuntra forskare att utveckla eller bidra till flerspråkiga ordlistor med specialiserad terminologi, delvis för att hjälpa till att hålla jämna steg med den ständiga genereringen av ny vetenskaplig jargong (Nkomo och Madiba 2012, Wild 2021). Wikipedia är till exempel en utmärkt plattform med öppen tillgång för att hitta flerspråkiga översättningar av tekniska och vetenskapliga ämnen. För närvarande är den dock underutnyttjad av flera vetenskapliga discipliner, och flera språk med ett stort antal talare (t.ex. hindi och turkiska) är underrepresenterade (Kincaid m.fl 2020, Roy m.fl 2021).


(Denna nätdagbok är knuten till nätverket Språkförsvaret)


 

Från

Blogg / Hemsida

Säkerhetskod
   Spamskydd  

Kommentar