Kanji nach Reading konvertieren

Auf der Suche nach einem Tool, das japanischen Text mit Kanji in Readings konvertiert, hab ich mittlerweile drei gefunden.

Als erstes hatte ich Chasen gefunden, das nach einem Test mit einem einfachen Text gleich schonmal merkwürdiges produzierte:

私は日本に一人でいます。

wurde zu:

私      ワタシ                                                                                                                                    
は      ハ                                                                                                                                                    
日本    ニッポン                                                                                                                                              
に      ニ                                                                                                                                                    
一      イチ                                                                                                                                                                
人      ニン                                                                                                                                                                
で      デ                                                                                                                                                                                    
い      イ                                                                                                                                                                                    
ます    マス                                                                                                                                                                                  
。      。                                                                                                                                                                                    
EOS

Es fällt auf, dass aus dem 一人 [ひとり] ein 一 [いち] + 人 [にん] wurde …

Nach diesen Tests – und anhand unterschwelliger Erinnerungen, die ich an andere Tools hatte, deren Name mir aber nicht mehr einfallen wollten, hab ich mir das Japanese-Support-Plugin von Anki genauer angeschaut. Schließlich generiert das Furigana und da ist die gleiche Funktionalität gefragt.

Nach kurzem Analysieren viel es mir dann wieder ein, woher meine Kenntnisse bzgl der anderen Tools kamen. Ich hatte mir das Plugin schonmal irgendwann letztes Jahr angeschaut und mir nur gemerkt, solche Tools zur morphologischen Analyse von japanischen Texten schonmal gesehen zu haben.

Es werden zwei Tools  unterstützt … Kakasi und MeCab … Kakasi wurde wohl seit 2004 nicht mehr weiterentwickelt, während es von MeCab ein 2013er Update gibt.

Das Python-File zum Generieren der Readings hatte ich dann mit ein paar wenigen Handgriffen zur Standalone-Variante umgebaut und den Output getestet:

Kakasi:

私[わたし]は日本[にっぽん]に一人[ひとり]でいます。

MeCab:

私[わたし]は 日本[にっぽん]に一[いち] 人[にん]でいます。

Chasen (zum Vergleich formatiert):

私[わたし] は 日本[にっぽん] に 一[いち] 人[にん] でいます。

Netterweise gibt es auch gleich eine Internetseite, bei der man einen japanischen Text eingeben und gleichzeitig von allen drei Tools analysieren kann:

Link zur Webseite

Was ich jetzt schade finde ist, dass gerade MeCab das nicht richtig gemacht hat, wobei es immer noch weiterentwickelt wird … Vielleicht gibt es irgendein Flag, was man noch setzen kann? Mal  kucken …

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s