Aktualizované soubory DGT
Téma indítója: Milan Condak

Milan Condak  Identity Verified
Local time: 14:43
angol - cseh
Mar 2, 2014

Na stránce

http://ipsc.jrc.ec.europa.eu/?id=197#c2744

najdete odkazy a informace o databázích, ze kterých je možno extrahovat dvojjazyčné TMX

DGT - vydání 2007
DGT-TM-vydání 2011
Velikost souborů1.96GB
počet českých překladových jednotek 890.025
počet českých překladových jednotek 1.985.152

DGT-TM
... See more
Na stránce

http://ipsc.jrc.ec.europa.eu/?id=197#c2744

najdete odkazy a informace o databázích, ze kterých je možno extrahovat dvojjazyčné TMX

DGT - vydání 2007
DGT-TM-vydání 2011
Velikost souborů1.96GB
počet českých překladových jednotek 890.025
počet českých překladových jednotek 1.985.152

DGT-TM-vydání 2012
Velikost souborů 354 MB
počet českých překladových jednotek 283.826

DGT-TM-vydání 2013
Velikost souborů 568 MB
počet českých překladových jednotek 478.709

Moje předchozí prezentace o podobných zdrojích:

Využití vícejazyčného tezauru Eurovocu jako slovníky nebo glosáře, 3.5.2013

http://www.condak.net/cat_other/omegat/2013-05-03/cs/00.html

TM v PC Translatoru 2012, 26.11.2011

http://www.condak.net/tmx/tm-pctrans/cs/00.html

Milan
Collapse


 

Milan Condak  Identity Verified
Local time: 14:43
angol - cseh
TÉMAINDÍTÓ
Drobné potíže Mar 4, 2014

Milan Condak wrote:

DGT-TM-vydání 2012



V duchu tradice Tradosu je používán kód češtiny CS-01 místo správného kódu CS-CZ.
Druhá malá potíž se týká výskytu velkého písmena "Ě".
Program Virtaal TMX neotevřel, chybu hlásil i WfConverter.
Pokud nepůjde otevřít ani v CAT nástrojích, tak v textovém editoru "Ě" nahradím obyčejným "E".

Dodatek:
Naimportoval jsem úspěšně do PC Translatoru 2012 čtyři TMX, v jazykovém páru EN-CS.
Bylo to 283.826 překladových jednotek. Odstranil jsem 73.335 duplicitních a mám 210.491 jedinečných překladových jednotek.

CAT, kterým nebude vadit kód CS-01, nebudou mít problém TMX načíst.

Milan

[Edited at 2014-03-04 11:35 GMT]


 

Milan Condak  Identity Verified
Local time: 14:43
angol - cseh
TÉMAINDÍTÓ
Extrakce DGT-TM-vydání 2013 Mar 4, 2014

Milan Condak wrote:

DGT-TM-vydání 2013

počet českých překladových jednotek 478.709



Vyextrahoval jsem 478.709 EN-CS překladových jednotek, smazal jsem 119.773 duplicitních překladových jednotek, mám 358.936 jedinečných překladových jednotek.

Milan


 

Milan Condak  Identity Verified
Local time: 14:43
angol - cseh
TÉMAINDÍTÓ
DGT-TM-release 2017 May 8, 2017

Už se zase těšíme na velikonoce, copak nám asi nadělí?

Od roku 2011 nabízí Spojené výzkumné středisko Evropské komise pravidelně ke stažení přiřazená data ve formě vícejazyčných zazipovaných TMX, ze kterých je možno extrahovat dvojjazyčné TMX.

https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory
... See more
Už se zase těšíme na velikonoce, copak nám asi nadělí?

Od roku 2011 nabízí Spojené výzkumné středisko Evropské komise pravidelně ke stažení přiřazená data ve formě vícejazyčných zazipovaných TMX, ze kterých je možno extrahovat dvojjazyčné TMX.

https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory


Release Data VOL Size

2007 12 1.080 MB
2011 Vol 2004-2010 25 1.960 MB
2012 Vol 2011 4 354 MB
2013 Vol 2012 6 568 MB
2014 Vol 2013 7 657 MB
2015 Vol 2014 3 283 MB
2016 Vol 2015 7 642 MB
2017 Vol 2016 9 848 MB

Data jsem si opět zpracoval. Vytvořil jsem si jazykové páry s češtinou. Smazal jsem redundantní překladové jednotky. Nejvíce překladových jednotek měl anglicko-český jazykový pár, bylo jich 608 tisíc, redundantních překladových jednotek bylo 141 tisíc. (Nejmenší TMX je keltsko-česká.) Hotovou TMX je možné využít v CAT, v PC Translatoru, v nástrojích na vytváření terminologie, nebo na "krmení" statistických překladačů. Pravděpodobně i neuronových sítí, o kterých zatím nevím téměř nic.

Milan
Collapse


 

Milan Condak  Identity Verified
Local time: 14:43
angol - cseh
TÉMAINDÍTÓ
DGT 2018 VOL 2017 May 4, 2018

Milan Condak wrote:

Release Data VOL Size
2017 Vol 2016 9 848 MB


Data za rok 2017 jsou ve dvou souborech, velikost je poloviční proti předchozímu roku.

Milan


 

Milan Condak  Identity Verified
Local time: 14:43
angol - cseh
TÉMAINDÍTÓ
2019 Vol 2018 a prezentace zpracování May 30, 2019

Společné výzkumné středisko EK vydává po ukončení roku sady zazipovaných TMX.
Prezentace ukazuje seznam souborů a možnost využít WfConverter, pokud nepoužíváte SDL Studio Trados.

Překladové jednotky obsahují Celexové číslo (kód dokumentu v systému Eur-Lex), které se při konverzi ztratí.
Kdo si vytváří TMX sám, může mít Celexové číslo v každé překladové jednotce.
Jak najít jednoduše CELEX (dokumenty), ve kterých je výraz
... See more
Společné výzkumné středisko EK vydává po ukončení roku sady zazipovaných TMX.
Prezentace ukazuje seznam souborů a možnost využít WfConverter, pokud nepoužíváte SDL Studio Trados.

Překladové jednotky obsahují Celexové číslo (kód dokumentu v systému Eur-Lex), které se při konverzi ztratí.
Kdo si vytváří TMX sám, může mít Celexové číslo v každé překladové jednotce.
Jak najít jednoduše CELEX (dokumenty), ve kterých je výraz, který hledáte?
Vyzkoušejte https://juremy.com .

Jde to i bez Juremy, přímo v Eur-lexu.
Hledal jsem "Agrofert" a našel jsem jej 59 krát. Z nejnovějšího jsem vytvořil TMX, která obsahuje Celexové číslo.

http://www.condak.cz/nove/2019-05/27/cs/00.html

DGT-TM a WfConverter

CELEX: Juremy a LF Aligner

01 DGT Translation Memory
02 WfConverter a SK-CS
03 WfConvertor a EN-CS
04 Import 3 TMX do PC Translatoru
05 Juremy.com a CELEX

Milan
Collapse


 

Milan Condak  Identity Verified
Local time: 14:43
angol - cseh
TÉMAINDÍTÓ
Velikost souborů DGT-TM-release 2019 Oct 9, 2019



Dne 27. května 2019 jsem uvedl velikost souborů na stránce .../dgt-translation-memory

http://www.condak.cz/nove/2019-05/27/cs/01.html

DGT-TM-release 2018
74 Vol_2017_1.zip 254 MB
75 Vol_2017_2.zip 173 MB
Total size 427 MB
----------------------
DGT-TM-release 2019
76 Vol_2018_1.zip 261 MB
77 Vol_2018_2.zip 262 MB
78 Vol_2018_3.zip 88 MB
Total size 611 MB

Napsal jim, vyměnil jsem si asi 5 emailů a i dnes 9.10.2019 web ".../dgt-translation-memory" uvádí chybné neopravené údaje:

DGT-TM-release 2019 Size
Vol_2018_1.zip 254 MB
Vol_2018_2.zip 173 MB
Vol_2018_3.zip 173 MB
Total size 427 MB

Hlavně, že data jsou v pořádku je možné je stáhnout.

Milan


 


Ehhez a fórumhoz nincs külön moderátor kijelölve.
Ha a webhely szabályainak megsértését kívánja jelenteni, vagy segítségre van szüksége, lépjen kapcsolatba a webhely munkatársaival ».


Aktualizované soubory DGT

Advanced search






SDL MultiTerm 2021
One central location to store and manage multilingual terminology.

By providing access to all those involved in applying terminology (such as engineers, marketers, translators, and terminologists), our terminology management solution ensures consistent and high-quality content from source through to translation.

More info »
SDL Trados Business Manager Lite
Create customer quotes and invoices from within SDL Trados Studio

SDL Trados Business Manager Lite helps to simplify and speed up some of the daily tasks, such as invoicing and reporting, associated with running your freelance translation business.

More info »



Forums
  • All of ProZ.com
  • Terminológiai keresés
  • Munkák
  • Fórumok
  • Multiple search