Aktualizované soubory DGT Téma indítója: Milan Condak
|
Na stránce
http://ipsc.jrc.ec.europa.eu/?id=197#c2744
najdete odkazy a informace o databázích, ze kterých je možno extrahovat dvojjazyčné TMX
DGT - vydání 2007
DGT-TM-vydání 2011
Velikost souborů1.96GB
počet českých překladových jednotek 890.025
počet českých překladových jednotek 1.985.152
DGT-TM... See more Na stránce
http://ipsc.jrc.ec.europa.eu/?id=197#c2744
najdete odkazy a informace o databázích, ze kterých je možno extrahovat dvojjazyčné TMX
DGT - vydání 2007
DGT-TM-vydání 2011
Velikost souborů1.96GB
počet českých překladových jednotek 890.025
počet českých překladových jednotek 1.985.152
DGT-TM-vydání 2012
Velikost souborů 354 MB
počet českých překladových jednotek 283.826
DGT-TM-vydání 2013
Velikost souborů 568 MB
počet českých překladových jednotek 478.709
Moje předchozí prezentace o podobných zdrojích:
Využití vícejazyčného tezauru Eurovocu jako slovníky nebo glosáře, 3.5.2013
http://www.condak.net/cat_other/omegat/2013-05-03/cs/00.html
TM v PC Translatoru 2012, 26.11.2011
http://www.condak.net/tmx/tm-pctrans/cs/00.html
Milan ▲ Collapse | | | Drobné potíže | Mar 4, 2014 |
Milan Condak wrote:
DGT-TM-vydání 2012
V duchu tradice Tradosu je používán kód češtiny CS-01 místo správného kódu CS-CZ.
Druhá malá potíž se týká výskytu velkého písmena "Ě".
Program Virtaal TMX neotevřel, chybu hlásil i WfConverter.
Pokud nepůjde otevřít ani v CAT nástrojích, tak v textovém editoru "Ě" nahradím obyčejným "E".
Dodatek:
Naimportoval jsem úspěšně do PC Translatoru 2012 čtyři TMX, v jazykovém páru EN-CS.
Bylo to 283.826 překladových jednotek. Odstranil jsem 73.335 duplicitních a mám 210.491 jedinečných překladových jednotek.
CAT, kterým nebude vadit kód CS-01, nebudou mít problém TMX načíst.
Milan
[Edited at 2014-03-04 11:35 GMT] | | | Extrakce DGT-TM-vydání 2013 | Mar 4, 2014 |
Milan Condak wrote:
DGT-TM-vydání 2013
počet českých překladových jednotek 478.709
Vyextrahoval jsem 478.709 EN-CS překladových jednotek, smazal jsem 119.773 duplicitních překladových jednotek, mám 358.936 jedinečných překladových jednotek.
Milan | | | DGT-TM-release 2017 | May 8, 2017 |
Už se zase těšíme na velikonoce, copak nám asi nadělí?
Od roku 2011 nabízí Spojené výzkumné středisko Evropské komise pravidelně ke stažení přiřazená data ve formě vícejazyčných zazipovaných TMX, ze kterých je možno extrahovat dvojjazyčné TMX.
https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory... See more Už se zase těšíme na velikonoce, copak nám asi nadělí?
Od roku 2011 nabízí Spojené výzkumné středisko Evropské komise pravidelně ke stažení přiřazená data ve formě vícejazyčných zazipovaných TMX, ze kterých je možno extrahovat dvojjazyčné TMX.
https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory
Release Data VOL Size
2007 12 1.080 MB
2011 Vol 2004-2010 25 1.960 MB
2012 Vol 2011 4 354 MB
2013 Vol 2012 6 568 MB
2014 Vol 2013 7 657 MB
2015 Vol 2014 3 283 MB
2016 Vol 2015 7 642 MB
2017 Vol 2016 9 848 MB
Data jsem si opět zpracoval. Vytvořil jsem si jazykové páry s češtinou. Smazal jsem redundantní překladové jednotky. Nejvíce překladových jednotek měl anglicko-český jazykový pár, bylo jich 608 tisíc, redundantních překladových jednotek bylo 141 tisíc. (Nejmenší TMX je keltsko-česká.) Hotovou TMX je možné využít v CAT, v PC Translatoru, v nástrojích na vytváření terminologie, nebo na "krmení" statistických překladačů. Pravděpodobně i neuronových sítí, o kterých zatím nevím téměř nic.
Milan ▲ Collapse | |
|
|
DGT 2018 VOL 2017 | May 4, 2018 |
Milan Condak wrote:
Release Data VOL Size
2017 Vol 2016 9 848 MB
Data za rok 2017 jsou ve dvou souborech, velikost je poloviční proti předchozímu roku.
Milan | | | 2019 Vol 2018 a prezentace zpracování | May 30, 2019 |
Společné výzkumné středisko EK vydává po ukončení roku sady zazipovaných TMX.
Prezentace ukazuje seznam souborů a možnost využít WfConverter, pokud nepoužíváte SDL Studio Trados.
Překladové jednotky obsahují Celexové číslo (kód dokumentu v systému Eur-Lex), které se při konverzi ztratí.
Kdo si vytváří TMX sám, může mít Celexové číslo v každé překladové jednotce.
Jak najít jednoduše CELEX (dokumenty), ve kterých je výraz... See more Společné výzkumné středisko EK vydává po ukončení roku sady zazipovaných TMX.
Prezentace ukazuje seznam souborů a možnost využít WfConverter, pokud nepoužíváte SDL Studio Trados.
Překladové jednotky obsahují Celexové číslo (kód dokumentu v systému Eur-Lex), které se při konverzi ztratí.
Kdo si vytváří TMX sám, může mít Celexové číslo v každé překladové jednotce.
Jak najít jednoduše CELEX (dokumenty), ve kterých je výraz, který hledáte?
Vyzkoušejte https://juremy.com .
Jde to i bez Juremy, přímo v Eur-lexu.
Hledal jsem "Agrofert" a našel jsem jej 59 krát. Z nejnovějšího jsem vytvořil TMX, která obsahuje Celexové číslo.
http://www.condak.cz/nove/2019-05/27/cs/00.html
DGT-TM a WfConverter
CELEX: Juremy a LF Aligner
01 DGT Translation Memory
02 WfConverter a SK-CS
03 WfConvertor a EN-CS
04 Import 3 TMX do PC Translatoru
05 Juremy.com a CELEX
Milan ▲ Collapse | | | Velikost souborů DGT-TM-release 2019 | Oct 9, 2019 |
Dne 27. května 2019 jsem uvedl velikost souborů na stránce .../dgt-translation-memory
http://www.condak.cz/nove/2019-05/27/cs/01.html
DGT-TM-release 2018
74 Vol_2017_1.zip 254 MB
75 Vol_2017_2.zip 173 MB
Total size 427 MB
----------------------
DGT-TM-release 2019
76 Vol_2018_1.zip 261 MB
77 Vol_2018_2.zip 262 MB
78 Vol_2018_3.zip 88 MB
Total size 611 MB
Napsal jim, vyměnil jsem si asi 5 emailů a i dnes 9.10.2019 web ".../dgt-translation-memory" uvádí chybné neopravené údaje:
DGT-TM-release 2019 Size
Vol_2018_1.zip 254 MB
Vol_2018_2.zip 173 MB
Vol_2018_3.zip 173 MB
Total size 427 MB
Hlavně, že data jsou v pořádku je možné je stáhnout.
Milan | | | Ehhez a fórumhoz nincs külön moderátor kijelölve. Ha a webhely szabályainak megsértését kívánja jelenteni, vagy segítségre van szüksége, lépjen kapcsolatba a webhely munkatársaival ». Aktualizované soubory DGT Advanced search SDL MultiTerm 2021 | One central location to store and manage multilingual terminology.
By providing access to all those involved in applying terminology (such as engineers, marketers, translators, and terminologists), our terminology management solution ensures consistent and high-quality content from source through to translation.
More info » |
| SDL Trados Business Manager Lite | Create customer quotes and invoices from within SDL Trados Studio
SDL Trados Business Manager Lite helps to simplify and speed up some of the daily tasks, such as invoicing and reporting, associated with running your freelance translation business.
More info » |
|
| | | | X Sign in to your ProZ.com account... | | | | | |