Språkförsvaret

(Denna text är översatt från "Overcoming Language Barriers in Academia: Machine Translation Tools and a Vision for a Multilingual Future" i BioScience oktober 2022)


De tidigaste metoderna för maskinöversättning använde noggrant programmerade språkliga regler och mycket stora ordböcker, men de hade begränsad framgång eftersom språket är fullt av tvetydigheter och datorer inte hade tillgång till den typ av kunskap om verkligheten och sociala interaktioner som människor använder för att tolka språk (Way 2020). Efter att internet introducerades och den ökande trenden med att producera texter i digital form rörde sig maskinöversättningsforskarna bort från lingvistiska metoder och mot datadriven maskinöversättning, som utnyttjade datorernas styrkor (t.ex. mönstermatchning, snabba beräkningar). Runt millennieskiftet började det dyka upp statistiska maskinöversättningssystem, bland annat tidiga gratisverktyg på nätet som Google Translate. I statistisk maskinöversättning matade utvecklarna datorn med stora mängder tidigare översatta texter, och systemet använde dessa exempel för att beräkna sannolikheten för att en viss fras skulle översättas på ett visst sätt i en framtida text (Way 2020). De statistiska maskinöversättningsverktygen gav bättre kvalitet än de lingvistiska metoderna, men det fanns fortfarande mycket som kunde förbättras. En annan datadriven metod, så kallad neural maskinöversättning, dök upp i slutet av 2016 och har inneburit ytterligare ett steg framåt när det gäller översättningskvaliteten. I dag använder de flesta maskinöversättningsverktyg artificiella neurala nätverk i kombination med tekniker som bygger på artificiell intelligens, t.ex maskininlärning (Forcada 2017). Dessa tekniker kräver att utvecklarna förser maskinöversättningssystemet med många träningsexempel på originalkälltexter och översättningar av dessa för att systemet ska lära sig. Därför är det lättare att anpassa översättningsverktygen till språk som används ofta eller språk med fler sådana exempel. Även om de inte är perfekta utgör neurala maskinöversättningssystem en bättre utgångspunkt än äldre maskinöversättningssystem, som förlitade sig på lingvistiska eller statistiska metoder. Resultaten från neurala maskinöversättningssystem kan användas för grundläggande kunskapsinhämtning eller som ett första utkast som sedan kan förbättras (t.ex. för akademiskt skrivande; Parra Escartín och Goulet 2020). Allt fler människor använder neurala maskinöversättningsverktyg eftersom de är enkla att använda och finns tillgängliga gratis på nätet (t.ex. DeepL och Google Translate; Bowker 2021).


Att använda maskinöversättningsverktyg kräver dock fortfarande gott omdöme, vilket är anledningen till att det finns ett behov av maskinöversättningskunskap (Bowker och Ciro 2019, Bowker 2021). Maskininlärningstekniker är mycket känsliga för mängden och kvaliteten på deras träningsdata. För att fungera väl behöver maskinöversättningssystem inte bara tillgång till enorma mängder tidigare översatta texter och motsvarande originaltexter, utan även till texter av god kvalitet som är relevanta för det aktuella ämnet (Chu och Wang 2020). Det språk som används inom specialiserade områden innehåller till exempel många tekniska termer och konstruktioner som inte är en del av vardagsspråket. För att ett maskinöversättningssystem ska kunna översätta texter inom biologi på ett korrekt sätt måste det därför förses med miljontals exempel på tidigare översatta texter från just detta område. Dessutom skulle dessa exempel behöva täcka alla önskade språkkombinationer (t.ex. engelska och franska, kinesiska och hindi, engelska och kinesiska). I vissa fall, när ett visst språkpar har relativt få översatta texter tillgängliga, kan bristen på träningsdata övervinnas genom att använda ett allmänt talat språk som ett pivotspråk (t.ex. att översätta från spanska till kinesiska med engelska som mellanled), även om denna metod kan sprida fel (Kim et al. 2019). På samma sätt som för talad kommunikation ökade den senaste covid-19-pandemin snabbt behovet och användningen av kommunikationsplattformar online som tillhandahåller undertexter på flera språk. Om man kombinerar två ofullkomliga tekniker (maskinöversättning och taligenkänning) kan det dock leda till fler översättningsfel (Sulubacak et al. 2020), på samma sätt som när man använder pivotspråk.


Det finns tydliga steg som forskare och utvecklare av maskinöversättningsverktyg kan ta för att förbättra implementeringen av teknik i vetenskaplig översättning. En samlad insats för att tillhandahålla öppet tillgängliga, mänskligt verifierade och högkvalitativa översättningar av sammanfattningar i vetenskapliga tidskrifter skulle bidra avsevärt till att generera de data som krävs för att träna maskinöversättningssystem. För närvarande tränas gratis översättningsverktyg online främst på allmänspråkliga data snarare än på vetenskaplig jargong eller specialspråk. Forskare och verktygsutvecklare skulle kunna samarbeta om verktyg med öppen tillgång som tränar maskinöversättningssystem för specialiserade forskningsområden. Samtidigt skulle vi kunna uppmuntra forskare att utveckla eller bidra till flerspråkiga ordlistor med specialiserad terminologi, delvis för att hjälpa till att hålla jämna steg med den ständiga genereringen av ny vetenskaplig jargong (Nkomo och Madiba 2012, Wild 2021). Wikipedia är till exempel en utmärkt plattform med öppen tillgång för att hitta flerspråkiga översättningar av tekniska och vetenskapliga ämnen. För närvarande är den dock underutnyttjad av flera vetenskapliga discipliner, och flera språk med ett stort antal talare (t.ex. hindi och turkiska) är underrepresenterade (Kincaid m.fl 2020, Roy m.fl 2021).


(Denna nätdagbok är knuten till nätverket Språkförsvaret)


Marcus Larsson skriver på Twitter:


”Det här var något nytt: utlysa tjänst i SO-ämnena som man bara kan få om man har behörighet i samtliga fyra ämnen historia, geografi, samhällskunskap och religion. Hur många sådana lärare har vi i Sverige?”


Eftersom lärare med denna behörighet är ytterst sällsynta i Sverige, kan Internationella Engelska Skolan i Sigtuna lugnt låta en obehörig lärare fortsätta att upprätthålla tjänsten i fråga.


 


(Denna nätdagbok är knuten till nätverket Språkförsvaret)

I en artikel “Overcoming Language Barriers in Academia: Machine Translation Tools and a Vision for a Multilingual Future” i BioScience oktober 2022 pläderar författarna för ökad användning av maskinöversättningsprogram som kan bidra till en flerspråkig vetenskaplig värld. Det heter i sammanfattningen:


”Att ha ett centralt vetenskapligt språk är fortfarande avgörande för att främja och globalt dela vetenskap. Men att upprätthålla ett dominerande språk skapar också hinder för att få tillgång till vetenskapliga karriärer och kunskaper. Utifrån ett tvärvetenskapligt perspektiv beskriver vi hur, när och varför man kan göra vetenskaplig litteratur mer lättillgänglig på flera språk genom översättning. Vi går igenom fördelar och begränsningar med neurala maskinöversättningssystem och föreslår att översättning kan fungera som både en kortsiktig och en långsiktig lösning för att göra vetenskapen mer motståndskraftig, tillgänglig, globalt representativ och inflytelserik utanför akademin. Vi beskriver åtgärder som individer och institutioner kan vidta för att stödja flerspråkig vetenskap och flerspråkiga forskare, inklusive strukturella förändringar som uppmuntrar och värdesätter översättning av vetenskaplig litteratur. På lång sikt kan förbättringar av maskinöversättningstekniken och kollektiva insatser för att ändra akademiska normer omvandla ett enspråkigt vetenskapligt nav till ett flerspråkigt vetenskapligt nätverk. Översättningarna finns tillgängliga i det kompletterande materialet.”


Ett av de neurala översättningsprogram som omnämnts i artikeln, är DeepL, som har använts just här. DeepL översätter mellan 32 språk.


(Denna nätdagbok är knuten till nätverket Språkförsvaret)

 

Sant om lärare! Men det framgår inte i vilken årskurs eleven går - kanske mellanstadiet?


(Denna nätdagbok är knuten till nätverket Språkförsvaret)

Tack för den aktuella artikeln, även om jag inte förstår varför det behövs global forskning för att påvisa något så uppenbart. Det är bara att titta i en något sånär välansedd vetenskaplig journal för att förstå problemet, och jag bifogar referenser till tre artiklar, som landat i min mailbox det senaste halvåret, utan att jag i något avseende bett om at få tillgång till dem.


I övrigt har jag svårt att se vad artikelns tes är. Personligen drar jag slutsatsen att man som forskare måste se till att behärska det engelska språket. Doktorander i alla länder bör därför se till att de har goda kunskaper i engelska när de börjar sin forskarutbildning.


Jag ska inte gå in i någon djupare sifferexercis, men jag blir förvånad över vissa uppgifter, och några kommentarer måste jag ändå ge.


  • ”Jämfört med en doktorandkollega som råkar ha engelska som modersmål behöver du (d v s den icke engelskspråkige doktoranden, min anm) 91 % mer tid för att läsa en artikel på engelska. Detta motsvarar tre veckor per år för att läsa samma antal artiklar.” Kommentar: Om tre veckor utgör 91 % av den årliga tid för läsning av artiklar en engelskspråkig doktorand spenderar per år, innebär det att denne/denna bara ägnar 3,3 veckor (132 h) per år till att läsa artiklar. Den icke engelskspråkige doktoranden skulle då inte behöva använda mer än 252 h per år (6,3 veckor), vilket knappast torde räcka ens för en engelskspråkig doktorand. Då förstår jag mycket väl att kvalitén på forskningen sjunker, oberoende av doktorandens modersmål.

  • ”Först behöver du 51 % mer tid för att skriva uppsatsen”. Kommentar: Över 40 års forskningserfarenhet säger mig att det tar i medeltal 6 månader att få ihop en uppsats. Naturligtvis varierar det inom vida gränser, men 6 månader är ett rimligt medelvärde, vilket också leder till tumregeln att en sammanläggningsavhandling bör bestå av 6 uppsatser. Om vi då gör det tvivelaktiga antagandet att hela tiden går åt till att skriva, innebär det att den icke engelskspråkige doktoranden kan skriva en artikel på 9 månader, vilket givetvis innebär en fördröjning jämfört med den engelskspråkige, men inte någon större nackdel. Om vi istället, något mer realistiskt, antar att själva skrivandet tar 1/4 eller högst 1/3 av den totala tiden för att få ihop uppsatsen, kommer förseningen inte att överskrida en månad.

  • Sedan behöver du (doktoranden, min anm) sannolikt någon som korrekturläser din text”. Kommentar: Här har naturligtvis handledare och examinatorer en väsentlig uppgift. Just korrekturläsning av doktorandernas alster torde vara en av handledarnas viktigare uppgifter, och kostnaden för detta kommer då att landa som handledarlön. Nätverkande vid konferenser kan också ge kontakter med reellt engelskspråkiga kollegor, som kan användas som ”bollplank” och granska språket, om inte forskningsarbetet är strängt konfidentiellt.

  • ”I genomsnitt kommer dina (doktorandens, min anm) artiklar att refuseras 2,6 gånger oftare av tidskrifterna.” Kommentar: Personligen anser jag att det accepteras alltför många artiklar (se bifogade titlar), och det släpps igenom alltför dålig språkbehandling. Jag kan enkelt hålla med om att de artiklar, jag ger som exempel, alla kommer från ”forskare” som inte har engelska som sitt modersmål, men jag vill inte lägga ansvaret för den låga nivån och språkhanteringen på att de är skrivna av icke engelskspråkiga. Det handlar snarare om att universitet i vissa länder inte håller en tillräcklig nivå för att bedriva forskning, men man förväntas ändå publicera. Men det är ett annat problem. Jag vill också framhålla att de idag att det idag finns alltför många tidskrifter, som utger sig för att var internationella och vetenskapliga. Men det är också ett annat problem, även om de hänger ihop.

Exempel på artiklar med dålig nivå och språkbehandling:


Majhi M ”Performance Analysis of Hot Rolling Mill to Improve Productivity and Reduce the Production Cost and Scrap Value” International Journal of Modernization in Engineering Technology and Science, Vol 05 (2023) No 6, pp 3068 – 3087.

Nwachukwu P U, Oluwole O ”Effect of Rolling Process Parameters on the Mechanical Properties on Hot–rolled St60Mn Steel” Case Studies in Construction Materials, Vol 6 (2017), pp134 – 146.

Kumar R, Singh L, Singh Y, Singh A ”Influence of Metal Temperature on Strength of Rolled Steel Product” International Journal for Scientific Research & Development, Vol 1 (2013) No 9, pp 1716 – 1719.


Vänliga Hälsningar

Sven–Erik Lundberg

Professor Emeritus i Maskinteknik (med totalt 6 års studier i engelska)


(Denna nätdagbok är knuten till nätverket Språkförsvaret)