Statisticky extrahované slovníky z databáze DGT
Thread poster: Milan Condak
Milan Condak
Milan Condak  Identity Verified
Local time: 03:19
English to Czech
Jul 14, 2014

V rámci projektu TaaS, který koncem června 2014 obsahoval 87 tisíc českých slov a je dostupný přes web https://demo.taas-project.eu/

existuje i možnost si slovníky stáhnout

http://www.taas-project.eu/index.php?page=alias-3

Prozatím jsou na webu jeno
... See more
V rámci projektu TaaS, který koncem června 2014 obsahoval 87 tisíc českých slov a je dostupný přes web https://demo.taas-project.eu/

existuje i možnost si slovníky stáhnout

http://www.taas-project.eu/index.php?page=alias-3

Prozatím jsou na webu jenom jazykové páry EN-xx (obsahují i opačný směr xx-EN). Kromě zdrojových dat je k dispozici 6 statisticky vyčištěných slovníků.

čistící metoda počet slovních dvojic EN-CS

LLR 157 tisíc
Pivot 349 tisíc
Transliteration 267 tisíc

V jednom sloupci je zdrojový termín, jeho pravděpodobný překlad a koeficient pravděpodobnosti. Mezi výrazy je vždy mezera. Hlavní nevýhodou je, že jde o párování jednoslovných výrazů, takže jedno anglické slovo je přeloženo do více českých tokenů (gramatických tvarů) a anglické slovo je bez kontextu (předložek, členů apod.).

Podle přiloženého referátu ve formátu PDF existují i jazykové páry FR-XX a DE-XX. Budou ke stažení později. Referát uvádí jako nejúčinnější metodu čištění "ruční čištění", to ale vyžaduje jazykové znalosti a je časově náročné.

Stáhnout je možné také ověřenou terminologii = IATE, pro češtinu v ní je pouze 26.202 výrazů

http://iate.europa.eu/tbxPageDownload.do

diskuze k tématu je zde

http://www.proz.com/forum/translator_resources/271879-part_of_the_iate_database_can_now_be_downloaded_as_a_massive_tbx.html

a také v jných jazycích.

Milan

[Upraveno: 2014-07-14 19:42 GMT]
Collapse


 
Milan Condak
Milan Condak  Identity Verified
Local time: 03:19
English to Czech
TOPIC STARTER
Prezentace o využití dat Jul 27, 2014

Milan Condak wrote:

Prozatím jsou na webu jenom jazykové páry EN-xx (obsahují i opačný směr xx-EN).



Udělal jsem prezentaci

www.condak.cz/archiv-net/2014-07/25/cs/00.html

Ukazuje jak je možno využít bezplatně stažená data, zatím ale pouze v kombinaci s angličtinou.

Jedna stránka je věnovaná křížovému importu.

http://www.condak.cz/archiv-net/2014-07/25/cs/03.html

Toto téma není nyní dále rozpracováno.

Milan


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Statisticky extrahované slovníky z databáze DGT






Trados Studio 2022 Freelance
The leading translation software used by over 270,000 translators.

Designed with your feedback in mind, Trados Studio 2022 delivers an unrivalled, powerful desktop and cloud solution, empowering you to work in the most efficient and cost-effective way.

More info »
Protemos translation business management system
Create your account in minutes, and start working! 3-month trial for agencies, and free for freelancers!

The system lets you keep client/vendor database, with contacts and rates, manage projects and assign jobs to vendors, issue invoices, track payments, store and manage project files, generate business reports on turnover profit per client/manager etc.

More info »