Auf der Suche nach einem Tool, das japanischen Text mit Kanji in Readings konvertiert, hab ich mittlerweile drei gefunden.
Als erstes hatte ich Chasen gefunden, das nach einem Test mit einem einfachen Text gleich schonmal merkwürdiges produzierte:
私は日本に一人でいます。
wurde zu:
私 ワタシ は ハ 日本 ニッポン に ニ 一 イチ 人 ニン で デ い イ ます マス 。 。 EOS
Es fällt auf, dass aus dem 一人 [ひとり] ein 一 [いち] + 人 [にん] wurde …
Nach diesen Tests – und anhand unterschwelliger Erinnerungen, die ich an andere Tools hatte, deren Name mir aber nicht mehr einfallen wollten, hab ich mir das Japanese-Support-Plugin von Anki genauer angeschaut. Schließlich generiert das Furigana und da ist die gleiche Funktionalität gefragt.
Nach kurzem Analysieren viel es mir dann wieder ein, woher meine Kenntnisse bzgl der anderen Tools kamen. Ich hatte mir das Plugin schonmal irgendwann letztes Jahr angeschaut und mir nur gemerkt, solche Tools zur morphologischen Analyse von japanischen Texten schonmal gesehen zu haben.
Es werden zwei Tools unterstützt … Kakasi und MeCab … Kakasi wurde wohl seit 2004 nicht mehr weiterentwickelt, während es von MeCab ein 2013er Update gibt.
Das Python-File zum Generieren der Readings hatte ich dann mit ein paar wenigen Handgriffen zur Standalone-Variante umgebaut und den Output getestet:
Kakasi:
私[わたし]は日本[にっぽん]に一人[ひとり]でいます。
MeCab:
私[わたし]は 日本[にっぽん]に一[いち] 人[にん]でいます。
Chasen (zum Vergleich formatiert):
私[わたし] は 日本[にっぽん] に 一[いち] 人[にん] でいます。
Netterweise gibt es auch gleich eine Internetseite, bei der man einen japanischen Text eingeben und gleichzeitig von allen drei Tools analysieren kann:
Was ich jetzt schade finde ist, dass gerade MeCab das nicht richtig gemacht hat, wobei es immer noch weiterentwickelt wird … Vielleicht gibt es irgendein Flag, was man noch setzen kann? Mal kucken …