Paralelní korpus InterCorp

Co může nabídnout překladatelům a translatologům?

Olga Nádvorníková

Olga Nádvorníková ve svém článku představuje projekt Filozofické fakulty Univerzity Karlovy a ukazuje, že paralelní korpus může být velmi praktickou pomůckou nejen pro odbornou lingvistickou práci, ale například i při překladu beletrie.

Paralelní korpus je databáze počítačově zpracovaných textů originálů a jim odpovídajících překladů, zarovnaných nejčastěji na úrovni vět. Při zadání dotazu ve vyhledávacím programu tak uživatel získá nejen seznam všech vět, v nichž se dané slovo nebo tvar vyskytuje (např. v angličtině slovo cat), ale zobrazí se mu také odpovídající věty v překladových textech:

Filch owned a cat called Mrs. Norris, a scrawny, dust-colored creature with bulging, lamp like eyes just like Filch’s. (J. Rowling, Harry Potter and the Sorcerer’s Stone, 1997)

Filch měl kočku, které říkali paní Norrisová, takové vychrtlé, špinavě hnědožluté stvoření s vypoulenýma očima jako dvě lampy, úplně stejnýma, jako měl školník. (Harry Potter a Kámen mudrců, přel. Vladimír Medek 2000)
Vorolla oli kissa nimeltä Norriska. Se oli ruipelo, tomunvärinen otus, jolla oli samanlaiset pullottavat lamppumaiset silmät kuin Vorolla. (Harry Potter ja viisasten kivi, přel. Jaana Kapari, 2000)
Rusard avait une chatte qui s’appelait Miss Teigne, une créature grisâtre et décharnée avec des yeux globuleux qui brillaient comme des lampes, à l’image de ceux de son maître. (Harry Potter à l’école des sorciers, přel. Jean-François Ménard, 2005)
Gazza possedeva una gatta di nome Mrs Purr, una creatura color polvere, tutta pelle e ossa, con due occhi sporgenti come fari, spiccicata al suo padrone. (Harry Potter e la Pietra Filosofale, přel. Marina Astrologo, 2000)
Filch hatte eine Katze namens Mrs. Norris, eine dürre, staubfarbene Kreatur mit hervorquellenden, lampenartigen Augen. (Harry Potter und der Stein der Weisen, přel. Klaus Fritz, 1999)

Paralelní korpus InterCorp, který od roku 2005 vzniká v Ústavu Českého národního korpusu (www.korpus.cz/intercorp), představuje svým rozsahem i složením jeden z největších korpusů tohoto druhu nejen v Evropě, ale i ve světovém měřítku. V současné době tento korpus obsahuje více než 900 milionů slov a zahrnuje 27 jazyků, mezi nimiž jsou zastoupeny nejen hlavní světové jazyky (angličtina, francouzština, španělština, ruština atd.), ale také jazyky méně rozšířené, jako jsou dánština, finština, litevština, lotyština nebo makedonština.

Přestože jsou jazykové korpusy obecně určeny primárně pro lingvistický výzkum a lexikografii, mají mnoho co nabídnout také jiným uživatelům. Cílem tohoto článku je představit tento zajímavý zdroj jazykových dat a poukázat na některé možnosti využití, které nabízí překladatelům nebo translatologům.

Složení korpusu a koncepce jeho rozšiřování

Jednotlivé jazykové subkorpusy, které jsou součástí InterCorpu, mají různý rozsah – mezi nejlépe zastoupené patří španělský subkorpus, který obsahuje téměř 63 milionů slov, a za ním s více než padesáti miliony slov následuje subkorpus německý, anglický, francouzský a nizozemský. Více než 40 milionů slov je však k dispozici také pro portugalštinu, polštinu, italštinu, švédštinu, řečtinu a slovenštinu.

Jádro korpusu tvoří beletristické texty, především romány, přeložené z daného cizího jazyka do češtiny. V anglické části korpusu tak můžeme najít např. Fitzgeraldův román Velký Gatsby nebo Stopařova průvodce po galaxii Douglase Adamse, v německém korpusu je k dispozici několik Konsalikových románů, ale také Tractatus Logico-Philosophicus Ludwiga Wittgensteina, a ve španělštině můžeme vyhledávat v románech Márqueze, Cortazara a dalších autorů. Zastoupení překladů z češtiny do cizích jazyků je vzhledem k menšímu počtu dostupných textů nižší, avšak jednotliví koordinátoři jazykových sekcí se snaží tyto poměry vyrovnávat, aby byl korpus co nejvyváženější, pokud jde o směr překladu. Právě překlady z češtiny do cizích jazyků proto často mají nejvíce jazykových variant: např. Kunderovy romány Nesnesitelná lehkost bytí a Žert najdeme v InterCorpu každý v devatenácti jazykových verzích, podobně zastoupeny jsou také Haškovy Osudy dobrého vojáka Švejka. Kromě beletristických textů obsahuje InterCorp texty odborné (Searle, Popper, Seibt, Duby aj.), ale i několik dílů Asterixových dobrodružství a jednu kuriozitu – inaugurační řeč Baracka Obamy.

Při výběru textů pro korpus se řídíme dvěma pravidly:

1. Základní podmínkou zařazení textu do korpusu je samozřejmě existence českého překladu daného textu – čeština je v korpusu pivotním jazykem, tj. všechny jazykové verze jsou zarovnány (alignovány) vůči českému textu. Při výběru vydání daného textu se řídíme údaji o zdrojovém textu, který byl použit pro překlad – snažíme se tak vyhnout nepříjemným překvapením v podobě chybějících pasáží nebo jiných změn. [1]

2. Korpus má sloužit pro synchronní výzkum jazyka, a proto jsou do něj zařazeny pouze texty publikované ve druhé polovině 20. století. U některých referenčních autorů jsme učinili výjimku (A. de Saint-Exupéry, K. Čapek aj.), obecně však toto pravidlo dodržujeme. Ze stejného důvodu se snažíme zařazovat do korpusu co nejnovější překlady, protože jsme si vědomi toho, že překladový jazyk zastarává mnohem rychleji než jazyk originálu. Víme, že pro translatology a překladatele by bylo zajímavé mít možnost srovnat různé verze českého překladu jednoho textu, prozatím se nám však nedaří obejít technické omezení, které vyžaduje pro češtinu jediný společný (pivotní) text.

Kromě beletristických textů, získaných především skenováním nebo zpracováním jinak získané elektronické verze textu, obsahuje InterCorp také tzv. kolekce textů, které jsou zpracovávány automaticky. Jedná se především o texty z vícejazyčných publicistických serverů (PressEurop a SYNDICATE), ale patří sem i soubor právních textů Acquis Communautaire a nově přibude také kolekce EuroParl, obsahující přepisy vystoupení poslanců v Evropském parlamentu a jejich překlady do jazyků členských států.

Uživatel si může předem na základě různých kritérií definovat pracovní korpus, na nějž své hledání omezí: může vyloučit texty „kolekcí“ a zaměřit se pouze na beletrii, může zvolit směr překladu (např. pouze z češtiny do švédštiny nebo opačně) nebo může prohledávat pouze texty jednoho autora v různých jazykových verzích (např. romány Stiega Larssona nebo Franze Kafky). Vyhledávací program (korpusový manažer) umožňuje zobrazovat výstupy v několika jazycích najednou, a tak je možné srovnávat zároveň výsledky hledání např. francouzského zájmena on s jeho protějšky v češtině, ve francouzštině, v angličtině, němčině atd. [2] Podrobné údaje v databázi textů však umožňují roztřídit texty např. i podle pohlaví autora nebo překladatele – teoreticky bychom tak mohli srovnávat texty i z tohoto genderového hlediska.

Přístup do korpusu

Ve srovnání s většinou zahraničních projektů je jednou z velkých výhod InterCorpu skutečnost, že pro přístup k vyhledávání v korpusech vám stačí pouhá elektronická registrace bez jakéhokoli poplatku (www.korpus.cz/ prohlaseni.php). Pro všechny korpusy nabízené Ústavem Českého národního korpusu pak platí stejné heslo. V současné době mají korpusy ČNK přibližně 3 200 registrovaných uživatelů, a každý den je zaznamenáno průměrně 1 200 vyhledávání, z nichž se 150 vztahuje právě na paralelní korpusy. V posledních letech se ÚČNK také snaží o aktivní propagaci korpusů u širší veřejnosti a organizuje školení a workshopy určené např. učitelům, ale i jiným zájemcům. Jeden z workshopů, kam se ještě můžete přihlásit, se bude konat např. v září na Filozofické fakultě Univerzity Karlovy v Praze, tým ÚČNK však po domluvě organizuje workshopy a školení také v jiných městech.

Vyhledávání v korpusu

Vyhledávání v korpusu InterCorp je velmi intuitivní. V březnu 2013 byl design i možnosti vyhledávání ještě vylepšen, protože bylo spuštěno nové uživatelské rozhraní (z programu Park se přešlo na NoSketchEngine). Aplikace umožňuje vyhledávat nejen jednotlivá slova nebo spojení slov (chat nebo chat noir), ale také tzv. lemmata, tj. základní tvary slov. Pokud tedy např. zadáme vyhledávání francouzského slovesa espérer (doufat) jako lemmatu, program nám zobrazí nikoli pouze infinitiv, ale všechny tvary daného slovesa (j’espère, j’aurais espéré atd.). Stejnou funkci můžeme samozřejmě použít také u jiných slovních druhů, např. u adjektiv (beau/belle/bel/beaux atd.) nebo substantiv (chat/chats).

Korpus však nabízí i pokročilejší možnosti vyhledávání, především pomocí regulárních výrazů a morfologických značek. Regulární výrazy nám umožňují vyhledávat části slov (např. všechny „ismy“ v korpusu, pro francouzštinu [lemma=‘.*isme‘]), příp. varianty slov (např. [Ii]nternet), nebo naopak některá slova z hledání vyloučit (např. [lemma=‘.*isme‘ & !lemma=’communisme‘]). Morfologické značky jsou pak jednou z hlavních výhod, které má jazykový korpus ve srovnání s prostým vyhledáváním na internetu, např. pomocí vyhledávače Google. Morfologická značka (tag) totiž určuje slovní druh a další morfologické charakteristiky daného slova, a místo hledání konkrétních slov nebo slovních spojení, např. černá kočka, nám umožňuje hledat jazykové struktury, např. adjektivum + substantivum. Díky morfologickým značkám můžeme vyhledat v korpusu také např. všechna citoslovce a zkoumat jejich ekvivalenty (třeba v komiksech o Asterixovi), a speciální značku mají i vlastní jména. Seznam morfologických značek je součástí návodu k uživatelskému rozhraní, a pro češtinu je navíc k dispozici tzv. klikátko, což je malá aplikace, která vám vygeneruje správné zadání dotazu podle vašeho přání (http://utkl.ff.cuni.cz/~skoumal/morfo/?lang=cs).

Podrobný manuál ke korpusovému manažeru najde uživatel na stránkách InterCorpu, zde proto uvedeme pouze některé konkrétní příklady vyhledávání, které by mohly být zajímavé pro překladatele a translatology.

InterCorp pro překladatele a translatology

Při úplně nejjednodušším použití může paralelní korpus InterCorp sloužit jako rozšířená verze elektronického překladového slovníku. Na rozdíl od slovníku však InterCorp automaticky nabízí dost široký kontext, a navíc umožňuje získané výskyty dále třídit, např. podle frekvence nebo levého či pravého kontextu. Nalezené výskyty slova chat tedy můžeme setřídit např. podle přídavného jména, které za ním následuje, tj. chat angora, botté, domestique, empoisonné, errant, grisâtre, orange, tigré atd.). Korpus může být užitečný také při hledání významu méně častých idiomů nebo sousloví složených z velmi frekventovaných slov (např. tout au plus), u nichž bychom v klasické papírové verzi slovníku museli prohledat několik sloupců dlouhé heslo, než bychom dospěli ke správnému ekvivalentu. Korpus nám možné ekvivalenty vyhledá okamžitě, a navíc přidá kontext, který umožní posoudit relevanci nabízených řešení.

Překladatelé většinou samozřejmě nehledají v korpusu základní významy slov, protože je znají nebo mají pro jejich ověření jiné nástroje. Korpus může ale pomoci v případě, kdy význam daného slova nebo sousloví známe, ale odpovídající výraz v češtině se nám hned nevybaví. Např. anglický výraz bailiwick znamená správní oblast, pokud nás ale zajímá jeho přenesený význam a nedokážeme si jej okamžitě vybavit, může nám korpus pomoci:

Any dispassionate assessment of the Fed’s thinking before and well into the crisis shows that it failed to understand the economics of its own bailiwick, banking and financial markets. (SYNDICATE 2008–2010, Thomas I. Palley)

Každé nezaujaté hodnocení způsobu uvažování Fedu před krizí a dost dlouho po jejím začátku dokládá, že nedokázala porozumět ekonomice na své vlastní parketě, v bankovnictví a na finančních trzích.

Jak se vyjádřila jedna z překladatelek – i když nenajdeme v korpusu přesně to, co hledáme, mohou nám zobrazené výskyty pomoci se od něčeho odrazit pro nalezení vlastního řešení, nebo můžeme být minimálně svědky bezradnosti jiných překladatelů, pokud jde o daný výraz, což může být také inspirativní. [3]

Kromě zkušených překladatelů používají InterCorp také mladí adepti překladatelství, kteří se na paralelních textech učí analyzovat detaily překladových textů a posuzovat vhodnost různých překladových řešení. Paní Jovanka Šotolová z Ústavu translatologie Filozofické fakulty Univerzity Karlovy se svými studenty analyzuje na InterCorpu např. různé protějšky francouzských konektorů jako néanmoins, d’ailleurs, donc, en fait, en effet a ilustruje na tomto příkladu skutečnost, že preferovaný slovníkový ekvivalent (v posledních dvou případech ve skutečnosti) nemusí být vždy ten nejvhodnější. Podobně lze ověřovat rozsah polysémie výrazů označujících barvy (ale i zvířata) a na konkrétních příkladech z paralelních textů posuzovat frekvenci jednotlivých slovníkových ekvivalentů, ale zároveň také demonstrovat, jak široký potřebuje překladatel kontext pro volbu adekvátního řešení.

Další oblíbenou aktivitou jsou podle Jovanky Šotolové v těchto translatologických kurzech analýzy zaměřené na srovnání možnosti českého překladu výrazů s filosofickým podtextem někdy až terminologického charakteru jako jsou idée, pensée, désir, plaisir nebo jouissance; téměř vždy zde totiž v češtině dochází ke konkretizaci sdělení nebo obrazu. Zajímavé výsledky přinášejí i analýzy překladatelských řešení při převodu citoslovcí či vulgarismů nebo sondy, jak jednotliví překladatelé přistupují k interpunkci, např. ke středníku. Studenti se také snaží identifikovat specifika idiolektu různých překladatelů (např. nadužívání slova jakýsi) nebo obecné tendence při překladu z francouzštiny do češtiny (např. vyšší frekvence výrazu člověk jako ekvivalentu francouzského zájmena on). [4]

Tímto příkladem se pak dostáváme ke skupině uživatelů, jejichž účast na analýze paralelních textů by mohla být přínosem jak korpusové lingvistice jako celku, tak zprostředkovaně překladatelům: translatologové totiž vnášejí do korpusové lingvistiky cit pro jemné významové rozdíly, schopnost posuzovat použité překladové postupy a rovněž neustálý zřetel k širokému kontextu a k faktorům, které jej mohou definovat.

V zahraničí se toto propojení korpusové lingvistiky s translatologií (translation studies) stále více prosazuje, a to ku prospěchu obou disciplín: korpusoví lingvisté si začínají uvědomovat, že je třeba brát systematicky v úvahu směr překladu, specifika překladového jazyka (translationese), překladatelský idiolekt a další faktory, a translatologové na oplátku získávají do rukou rozsáhlá data a počítačové nástroje, které jim umožňují odhalovat a analyzovat na autentickém materiálu jevy, jež byly dosud mimo dosah systematického výzkumu. Doufáme, že překladatele zaujmou jak translatologické analýzy, tak možnost samostatných výzkumných výprav do paralelních korpusových dat.

Poznámky:

1. Extrémní případ takového nepříjemného překvapení zažili kolegové na Masarykově univerzitě v Brně, kteří se pustili do zpracování paralelní verze díla Karla Maye a teprve dodatečně zjistili, že se jedná pouze o volný překlad. [Zpět]
2. Srovnání francouzského on, německého man, anglického one a českého člověk provedl Fr. Čermák, viz: Mnohojazyčný korpus InterCorp: Možnosti studia. Ed. František Čermák a Jan Kocek. Praha: NLN, 2010. 182–190. [Zpět]
3. Paní Petře Diestlerové tímto děkuji za ochotu podělit se o své zkušenosti s využíváním InterCorpu při překladatelské práci. [Zpět]
4. Děkuji paní Jovance Šotolové za laskavé poskytnutí informací o tom, jak se svými studenty na Ústavu translatologie FF UK používá InterCorp. [Zpět]

Zpět na číslo