Michal Čihař - Archive for April 9, 2006

Slovník k testování

Díky pár příspěvkům u předchozího zápisku už mám verzi Anglicko-Českého slovníku připravenou pro testování na uživatelích. Tak tedy stahujte a nadávejte jak blbě jsem to udělal :-). Jak to vypadá se můžete podívat na screenshotu

Nakonec se mi podařilo z dostupných dat vytvořit celkem strukturované překlady, ale určitě to není dokonalé (hlavně u mnoha slov chybí zařazení). Každopádně za blbé překlady či zařazení nenadávejte mě, ale opravte je :-).

A pár upozornění na závěr:

  • Pro zobrazení formátování potřebujete StarDict 2.4.6, starší verze to zobrazí bez něj. Na příkazovém řádku sdcv formátování zatím nezpracuje vůbec, takže výstup bude s tímto slovníkem trochu nepřehledný.
  • Slovník zatím není automaticky generovaný, takže bude aktualizovaný jenom když ucítím potřebu ho aktualizovat (nejspíš když něco změním v konvertoru).
  • Zdojové kódy skriptu pro převod (napsané v Pythonu) jsou volně dostupné pod GNU/GPL na GitHubu .

Formátování slovníku

Kdysi dávno jsem začal vytvářet debianí balíčky GNU/FDL Anglicko-Českého slovníku pro StarDict . Od té doby se čas od času někdo ozve, že by se mu to hodilo i pro jinou distribuci. Kvůli obskurnosti která je zatím vytváří nebylo triviální to předělat tak, aby to produkovalo i něco jiného než balíčky pro Debian.

Dnes jsem se konečně rozhodl to přepsat :-). Mimo jiné se mi taky nelíbilo jak se data ve StarDictu zobrazují, takže v rámci přepisování došlo i ke změně formátu dat. A v tom jak data zobrazi je právě problém, prostě nevím jak na to, aby to vypadalo rozumně a bylo přehledné. Prozatím jsem vymyslel následující výstup, ale moc se mi to nelíbí:

ahoj

ahoy [Zdeněk Brož]
bye [Pavel Cvrček]
([hovor.]) bye-bye (pozdrav na rozloučenou) [mamm]
(typ slova) překlad (poznámka) [autor]

Všechny položky (samozřejmě až na překlad) jsou nepovinné, takže když je na stránce více různých, je to dost rozházené. V papírových slovnících jsem moc užitečné inspirace nenašel, prostě je to jiné médium a na obrazovce je více místa. Lingea Lexicon má pěkně strukturovaná data, která asi z free slovníku nikdy nedostanu, takže tam se taky nedá inspirovat. Takže poslední možnost je, že někoho tady napadne geniální řešení jak data uspořádat, tak se předveďte :-). Jediné omezení je, že formátování lze provést jen novými řádky a tím co umí Pango markup .

Převodní skript prozatím žije jen v mém Arch repository, prohlédnout si ho můžete v ArchZoomu .