Machinevertaling
Wat is machinevertaling?
Onder machinevertaling verstaan we het volledig geautomatiseerd vertalen van teksten. Volledig geautomatiseerd wil zeggen dat een document in een vertaalmachine wordt “gestopt” en dat er een volledig vertaalde tekst uitkomt. De vertaling wordt helemaal opnieuw samengesteld op basis van taalkundige regels, woordenlijsten en wiskundige logaritmen. We onderscheiden twee hoofdsoorten machinevertaling: op taalkundige regels gebaseerde, zogenaamde “rule-based“ machinevertaling (RBMT) en statistische machinevertaling (SMT).
Verschil tussen RBMT en SMT
Tot halfweg het afgelopen decennium was rule-based machinevertaling (RBMT) de dominante technologie. Hierbij wordt gebruik gemaakt van taalmodellen, grammaticale regels, ingewikkelde algoritmen en terminologielijsten om documenten automatisch om te zetten naar een andere taal. Er was heel veel tijd en geld nodig om hiermee voor één talencombinatie een acceptabel resultaat te produceren. Er bestaan voor bepaalde talencombinaties en vakgebieden behoorlijk goeie RBMT-vertaalengines. Sinds de opkomst van het internet en het massaal online plaatsen van veelal meertalige en vertaalde content, zijn er steeds meer vertaalde teksten beschikbaar voor analyse door SMT-vertaalmachines. Hoewel al langere tijd met SMT werd gewerkt, nam deze technologie vanaf 2005 een enorme vlucht.
Google zet de SMT-toon
Door de beschikbaarheid van enorme hoeveelheden parallelle teksten (vertalingen) konden met SMT snel en relatief eenvoudig heel behoorlijke resultaten worden bereikt. Toen ook Google de potentiële voordelen van SMT inzag, begonnen ze een enorm project om een eigen systeem voor SMT te ontwikkelen. In een paar jaar tijd is Google erin geslaagd om door het analyseren en verwerken van honderdduizenden vertaalde documenten de beste gratis vertaalengine ter wereld te maken. Ook de vertaalmachines van Microsoft en Babelfish slagen erin voor sommige doeleinden bruikbare vertalingen te maken.
Nieuwste trend: hybride vertaalengines
De grote producenten van rule-based vertaalengines, bedrijven als Systran, LanguageWeaver en ProMT, hebben intussen ingezien dat hun producten weliswaar vrij goeie resultaten opleveren, maar dat het verschil met de gratis vertaalengines in veel gevallen klein is. Ze zijn daardoor voor veel potentiële en bestaande klanten onaantrekkelijk geworden. Om deze trend om te draaien zijn ze aan de slag gegaan met de ontwikkeling van zogenaamde hybride vertaalengines: vertaalmachines waarin RBMT en SMT worden gecombineerd. De resultaten zijn bemoedigend, maar het is nu nog te vroeg om met zekerheid te zeggen dat deze technologie gaat overheersen.