こんにちは。
暑い暑いと言っていたら暑い日がすくなくなってきて、だんだんと寒くなってきましたね。
カナです。
今回は自然言語処理の「MeCab」を使ってみたの第3回目です。
1回目、2回目はこちらから。
新型コロナウイルス感染防止を日常生活に取り入れた新しい生活様式
最近よく聞くフレーズですね。
これをMeCabで解析するとこうなります。
「コロナ」と「ウィルス」が別々の単語として解析されましたね。
様々な言葉等をMeCabで解析してみると、単語としてうまく解析されないや、今回の「コロナウィルス」のように分割されて検出されてほしくないということが出てきます。
このような場合はMeCabの辞書に新たな単語を登録しなくてはなりません。
それでは辞書の作り方です。
まずはCSVの形式で新たに作成する単語のデータを作成します。
コロナウイルス,0,0,0,名詞,一般,*,*,*,*,コロナウイルス,コロナウイルス,コロナウイルス
このような形のCSVのデータを作成します。詳しいCSVの内容はこちらを参考にしてください。
CSVを作成したら、MeCabの辞書のフォルダに移動します。
私の環境では、下記にありました。
C:\Program Files (x86)\MeCab\dic\ipadic
※インストールした環境によって異なってきます。
移動が完了したら、コマンドプロンプトを起動し、上記のフォルダまで移動した後、下記のコマンドを入力します。
"\Program Files (x86)\MeCab\bin\mecab-dict-index.exe" -f shift-jis -t SHIFT-JIS
※mecab-dict-index.exeの場所はインストールした環境によって異なります。
上記のようにdone!と表示されていれば正常に完了してます。
もう一度先ほどの文章を解析してみましょう!
「コロナ」「ウィルス」ではなく「コロナウィルス」と解析されていますね!
このように、単語の追加を行い、私たちが使いやすい形に文章を整形することができます。
応用することで、AIの技術を併せ、文章の解析を行うこともできます!
株式会社 パブリックリレーションズ 〒064-0807 北海道札幌市中央区南7条西1丁目13番地 弘安ビル5階 011-520-1800 011-520-1802