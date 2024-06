Do Překladače Google přichází 110 nových jazyků.

Jedná se o historicky největší počet nově přidaných jazyků.

Aplikace využívá k překladům umělou inteligenci.

Překladač Google už více než osmnáct let boří jazykové bariéry a snaží se lidem usnadnit komunikaci a porozumění světu kolem nich. V roce 2022 Google přidal 24 nových jazyků pomocí Zero-Shot Machine Translation, což je metoda, při které se model strojového učení učí překládat do jiného jazyka, aniž by předtím viděl konkrétní příklady překladu do tohoto jazyka.

Google také oznámil iniciativu „1 000 Languages Initiative“ v jejímž rámci hodlá vytvořit modely umělé inteligence, které budou podporovat překlady pro tisíc nejpoužívanějších jazyků na světě. Cílem iniciativy je zajistit, aby k nástrojům, které umožní komunikovat a porozumět jiným jazykům, mělo přístup co možná nejvíce lidí.

110 nových jazyků přichází do Překladače Google

K rozšíření nabídky podporovaných jazyků nyní vývojáři Překladače Google používají umělou inteligenci. Díky velkému jazykovému modelu PaLM 2 přidávají podporu 110 nových jazyků, což je vůbec největší rozšíření v celé historii této služby.

Do Překladače Google přichází 110 nových jazyků

Díky tomu se Překladač otevírá dalším 614 milionům lidem, tedy zhruba 8 % světové populace, kteří budou moci využít možnost komunikovat ve svém jazyce. Některé z přidaných jazyků používá více než 100 milionů mluvčích, jiné jsou záležitostí jen malých komunit. V nabídce přibyly i jazyky, které nemají téměř žádné rodilé mluvčí.

Přibližně čtvrtina nově přidaných jazyků pochází z Afriky, díky čemuž jde o dosud největší rozšíření afrických jazyků. Patří sem například jazyky Fon, Kikongo, Luo, Ga, Swati, Venda a Wolof. Pro lepší představu si pojďme stručně představit některé nově podporované jazyky:

Afarština je jazyk, kterým se mluví v Džibuti, Eritreji a Etiopii. Afarština měla ze všech jazyků nejvíce dobrovolných komunitních příspěvků.

Kantonština je dlouhodobě jedním z nejžádanějších jazyků. Protože se kantonština v písemném projevu často překrývá s mandarínštinou, je obtížné najít data a trénovat modely.

Manština je keltský jazyk ostrova Man. Téměř vymřela smrtí posledního rodilého mluvčího v roce 1974. Díky hnutí za její obnovu na celém ostrově však nyní existují tisíce mluvčích.

NKo je standardizovaná forma západoafrických mandingských jazyků, která sjednocuje mnoho dialektů do společného jazyka. Jeho jedinečná abeceda byla vynalezena v roce 1949 a dodnes pro něj existuje aktivní komunita.

Paňdžábština (šahmukhi) je odrůda paňdžábštiny psaná persko-arabským písmem (šahmukhi) a je nejpoužívanějším jazykem v Pákistánu.

Tamazight je berberský jazyk, kterým se mluví v severní Africe. Ačkoli existuje mnoho dialektů, spisovná forma je obecně vzájemně srozumitelná. Píše se latinkou a písmem Tifinagh, přičemž oba tyto jazyky Překladač Google podporuje.

Tok pisin je kreolština založená na angličtině a je jazykem Papuy-Nové Guineje.

Jak se přidávají jazyky?

Při přidávání nových jazyků do Překladače Google je nutné brát v úvahu mnoho faktorů, včetně různých regionálních variant, dialektů a pravopisných standardů. Jedním z velkých problémů je skutečnost, že mnoho jazyků nemá jednu standardizovanou formu, takže není možné vybrat „správnou“ variantu.

Vývojáři se snaží upřednostňovat nejčastěji používané varianty každého jazyka. Například romština má po celé Evropě mnoho dialektů, nicméně jazykové modely produkují text nejbližší dialektům, které se běžně používají v online komunikaci, ale také zahrnují prvky z jiných dialektů, jako je například balkánská romština.

Díky modelu umělé inteligence PaLM 2 (který vznikl v roce 2023 ještě před Gemini) se Překladač Google naučil efektivněji překládat jazyky, které jsou si navzájem blízce příbuzné. S rozvojem této technologie a s pokračující spoluprací s profesionálními lingvisty a rodilými mluvčími bude časem podporovat ještě více jazykových mutací a pravopisných konvencí.

Historie Překladače Google

Překladač Google je bezplatná služba pro překlad mezi různými jazyky, kterou představil Google v dubnu 2006. Umí překládat různé formy textů a médií, jako jsou slova, fráze a celé webové stránky. Původně probíhaly překlady mezi různými jazyky přes angličtinu, takže výsledky byly často značně kostrbaté.

K získání jazykových dat Překladač původně využíval dokumenty a záznamy Organizace spojených národů a Evropského parlamentu. Fungovalo to tak, že během překladu hledal odpovídající vzory v milionech dokumentů, aby rozhodl, která slova vybrat a jak je v cílovém jazyce uspořádat.

V lednu 2010 Google představil mobilní aplikaci pro Android a v únoru 2011 následujícího roku i pro iOS. Překladač tak začal sloužit jako přenosný osobní tlumočník. Od února 2010 byl integrován do prohlížečů, jako je Chrome, a byl schopen předříkávat přeložený text, automaticky rozpoznávat text v obrázku a identifikovat neznámý text a jazyky. V rámci snahy o zlepšení kvality vizuálního a hlasového překladu koupil Google v květnu 2014 firmu Word Lens. Díky tomu je nyní schopen skenovat text nebo obrázek a okamžitě jej přeložit.

Zásadní posun přišel v roce 2016, kdy Překladač Google přešel na metodu překladu označovanou jako neuronový strojový překlad. Ta používá techniky hlubokého učení k překladu celých vět najednou, což přineslo výrazně přesnější překlady zejména mezi angličtinou a francouzštinou, němčinou, španělštinou a čínštinou. V roce 2018 překládal více než 100 miliard slov denně.

Využíváte služeb Překladače Google?

Zdroj: blog.google