Chat with us, powered by LiveChat

Aangepast ontwikkelingsproces voor automatische vertalingen

Voor de lancering van een nieuwe Custom Neural Machine Translation Engine (CNMTE, een aangepast vertalingssysteem), heeft Trusted Translations eerst een training- en installatieperiode nodig. Een nieuw NMT-systeem omzetten gaat meestal op deze manier:

Een basissysteem selecteren

Veel content wordt ontwikkeld over de democratisering van algoritmes. Dit concept dient echter uitgebreider te zijn. Democratiseringstechnologieoplossingen vormen steeds meer een goede basis, waarop een aangepaste oplossing kan worden gemaakt. Diensten van Google, Microsoft of Amazon helpen u met het voeden van schone data in systemen die al goed ontwikkeld zijn.

Dataselectie en voorbereiding

Er zijn verschillende manieren om trainingsdata te verzamelen voor het ontwikkelen van een systeem op maat.

  • Bestaande vertaalde content:

    Het ideale startpunt voor elke Custom Neural Machine Translation Engine is het vinden en gebruiken van eerder vertaalde materialen, waaronder content die sterk lijkt op wat er vertaald moet worden. Des te meer eerder vertaald materiaal beschikbaar is, des te sneller en economischer het proces wordt. Als bron en doel niet gekoppeld zijn als vertaalgeheugenunits, dan kunnen deze op elkaar worden afgestemd, zodat de tweetalige content beschikbaar is die nodig is om de prestaties van het systeem te verbeteren.

  • Bestaande eentalige data:

    Als er voldoende content in de doeltaal bestaat, dan is het mogelijk om alle stijl en terminologie te gebruiken door dat toe te voegen. Deze content wordt mogelijk door MKB-bedrijven ontwikkeld en is ontzettend waardevol. Natuurlijk is domein- of zelfs klantspecifiek jargon van toegevoegde waarde bij het aanpassen van systemen op basis van NMT-technologie, waarbij terminologie juist werd gezien als de belangrijkste zwakte.

  • Gespecialiseerd materiaal maken op basis van andere bronnen:

    We gebruiken niet alleen eentalige data, maar doorzoeken ook het internet voor materialen die zo dicht mogelijk aansluiten bij de content die door het systeem wordt gehaald. Ook hier geldt weer: investeren in het zoeken naar de beste materialen betaalt zich altijd uit. Hetzelfde geldt voor tweetalige gegevens die kunnen orden gehaald uit datamarktplaatsen. Deze externe paralleldata moet schoongemaakt worden (spellingcontrole, controle op uitlijning, dubbelen verwijderen, etc.) voor het gebruikt kan worden als trainingsdata voor een MT-systeem. Dit kost meer tijd dan het geval zou zijn als de klant veel hoogwaardige, uitgelijnde data kan aanleveren. Het bouwen van het nieuwe systeem kost ongeveer 4 tot 6 weken.

Als er meer resultaten worden nabewerkt, dan kunnen deze worden gebruikt als hoogwaardige data voor hertraining. Dit flexibele model zorgt ervoor dat de kwaliteit van het resultaat van het systeem snel verbetert.

Hertraining: nieuwe CNMTE’s verbeteren met menselijke nabewerking

Er zijn verschillende workflows met Custom Neural Machine Translation Engines. Een veelgebruikte configuratie is het integreren van menselijke nabewerking in het proces. In deze workflow wordt het resultaat van de Custom Neural Machine Translation Engine bewerkt door onze gespecialiseerde taalkundigen, om de kwaliteit van de huidige output te verbeteren en het systeem te hertrainen voor toekomstige vertalingen. De redacteur past het resultaat aan voor een betere kwaliteit en het systeem wordt intelligenter dankzij een dynamisch, flexibel model. Bovendien wordt het systeem nog intelligenter als er meer vertalingen doorheen rollen. Met andere woorden: het kwaliteitsgat tussen volledig menselijke vertaling en deze oplossing neemt dramatisch af, terwijl de levertijden en kosten aanzienlijk verminderen. Volgens ons worden deze systemen erg waardevol en straks onmisbaar voor klanten met dergelijke behoeften.