日本語周り (2)

日本語や漢字の日付をPythonのdatetimeに変換するライブラリを作った

日本語周り

日本語文章を解析しているときに地味に困る物の一つに漢字等の日本語で書かれた年月日があります。 今回は、日本語で書かれた日付のデータをPythonのdatetime、timedeltaに変換するライブラリを作成したので紹介します。 ※ datetimeは日時、timedeltaは時間(時間差)を取り扱うPython標準オブジェクトです kanji_to_timeという名前のライブラリです。…

ATOK passport logo

ATOK日本語入力はクラウド機能を使ってもGoogle日本語入力に勝てなかった話

日本語周り

このIMEはGoogle検索などで得た情報を使って収録単語を増やす特徴があり、世間で流行っている用語が反映される速度が非常に速い特徴があります。 ただ、日本語を正しく変換する能力は若干低く、送り仮名などが上手く変換できない場合があること。堅い文章を書く際にフランクな変換が行われることがある所が気になっていました。 Google日本語入力並みの圧倒的な単語収録数があり、日本語を正しく変換できるIMEはないかと思い調べるとATOKという有料のIMEがヒットしました。 ATOKは日本語入力の精度が高い特徴があり、ATOK Expressというクラウド機能で大量の用語を日々IMEに反映してくれるようです。…