誰でもできる!形態素解析の始め方【mecab】

本記事の内容

  • MecabをインストールしてPythonで使うための環境
  • WSLのインストール
  • Ubuntuのインストール
  • install anaconda
  • mecabのダウンロード
  • meCabの設定
  • ipadicの設定

それでは、まずは今回利用する環境についてから解説します。

MecabをインストールしてPythonで使うための環境

  • Windows 10 以上(バージョン1909)※以下の説明は64bit前提
  • Python 3.7.3 以上
  • Mecab 0.996.2
  • mecab-0.996.2(Pyhtonライブラリ)
  • Ubuntu

WSLのインストール

形態素解析を行う際にmecabを使用しますが、mecabはLinux系で動きますので、WSLを使用します。

・Windowsマークのところで右クリック>アプリと機能を選択する

・プログラムと機能を選択する


・Windowsの機能の有効化または無効化を選択する

・Windows Subsystem for Linuxにチェック。
 →もし、この文言の表記がなければ省略して先に進んでよし
  ※下記の画像の2箇所にチェックを入れて再起動をすると後々エラーが出ないです

・Microsoft Storeでubuntuを検索してインストール

Ubuntuのインストール

・WindowsにUbuntuをインストールします。

ここで、クルクルが終わるまで待機します。
※Unpacking the distroはPCスペックによっては、1時間ほどかかる場合があります

ダウンロードが終了すると自動でUbuntuが立ち上がります。

・最初にUSER名を聞かれます。任意で入力しましょう。
・PWも聞かれます。任意で入力しましょう。
 ※入力しても反応していないように見えますが、入力されています

以下のコードを順番に入力していきます。

  1. $ sudo apt-get update
  2. $ sudo apt install build-essential
  3. $ sudo apt-get install nkf

install anaconda

  1. 下記リポジトリからインストーラーを取得する。
     $ wget https://repo.anaconda.com/archive/Anaconda3-2020.02-Linux-x86_64.sh
  2. インストールを行う。
     $ bash Anaconda3-2020.02-Linux-x86_64.sh
  3. .bashrcを読み込む
     $ source ~/.bashrc
  4. condaのアップデートを行う。
     $ conda update -n base -c defaults conda
  5. Jupyterをインストールする
     $ conda install -c conda-forge jupyterlab
  6. Jupyterの設定を行う
     $ jupyter lab –generate-config
     $ python -c ‘from notebook.auth import passwd;print(passwd())’

パスワードの入力が求められるので、任意のPWを入力しましょう。
※2回同じPWを入力します

パスワードの入力が完了すると以下の文字列が表示されます。記載されている文字列を記録しましょう
例:sha1:4cce050afe8b:2cf0016f5d4e113f09f7f4a9d67cd579872c5bc2
そしたら、以下の文字列をメモ帳などにコピー&ペーストし以下の赤文字に置き換えましょう。

c.NotebookApp.password = ‘sha1:4cce050afe8b:2cf0016f5d4e113f09f7f4a9d67cd579872c5bc2

置き換えたら、Vim(エディター)を使用し追記する作業を行います。

  1. $ vi /home/ユーザー名/jupyter_notebook_config.py

上記を実行すると、Vimが表示されるので、どこでもよいので追記しましょう。

※「i」を入力すると記述が可能になりますので、一番下などに張り付けて「ESC」→「:wq」で保存しましょう
※Vimに慣れておらず、パニックになった場合はESCキーを押して、「:q!」と入力すると保存せずに戻ります

  1. $ jupyter lab
  2. 任意のブラウザを開いて、アドレスに「loocalhost:8888」と入力しましょう。

いかがでしょうか、jupyter labが開いたでしょうか。

mecabのダウンロード

続いて、mecabをダウンロードしましょう。

https://taku910.github.io/mecab/

上記のサイトから2つのファイルをダウンロードします。

ダウンロードしたら、「jupyter lab」に「mecab_install」というフォルダを作りドロップします。
※他のファイルは無視してください。

完了したら、いったん「jupyter lab」と「Ubuntu」を閉じます。

再度、「Ubuntu」を開いて以下のコードを入力しましょう。

  1. $ ls -l
  2. $ pwd
  3. $ ls -l ./mecab_install/
  4. $ cd ./mecab_install/

meCabの設定

続いて、ダウンロードしたMecabのファイルをmakeしていきましょう。

  1. $ tar zxfv mecab-0.996.tar.gz
  2. ※もし、エラーが出る場合はWSLがバージョン1の可能性があります。2に更新しましょう。
  3. $ cd ./mecab-0.996
  4. $ ./configure
  5. $ make
  6. $ make check
  7. $ sudo make install
  8. $ sudo ldconfig
※エラーが出る場合:デスクトップのWindowsアイコンを右クリック>>Windows PowerShell(管理者権限)をクリック>>以下のコマンドを実行しましょう
C:\WINDOWS\system32>wsl --update
C:\Users\user>wsl --set-version Ubuntu-22.04 2
C:\Users\user>wsl --set-default-version 2

8を実行した後に/usr/local/libexec/mecab/mecab-dict-index: error while loading shared libraries: libmecab.so.2: cannot open shared object file: No such file or directoryが表示されたら完了です。
  1. $ cd ..
  2. $ ls -l

ipadicの設定

続いて、ダウンロードしたipadicファイルをmakeしていきましょう。

  1. $ tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
  2. $ nkf –overwrite -w mecab-ipadic-2.7.0-20070801/*
  3. $ cd ./mecab-ipadic-2.7.0-20070801

・dicrcファイルを開き下記を書き換える

  1. $ vi dicrc

   ※config-charset = EUC-JP の 「EUC-JP」→「UTF-8」に書き換えます。

  1. $ ./configure

・Makefileを開き下記を書き換える

  1. $ vi Makefile

   ※matrix.bin char.bin sys.dic unk.dic:
$(mecab_dict_index) -d . -o . -f utf8 -t utf8 に書き換えます

  1. $ make
  2. $ sudo make install
  3. $ mecab
  4. 任意の日本語を入力「今日はいい天気ですね。」
  5. 「ctr+c」を入力しましょう
  6. $ mecab -D

以上で、mecabのインストールまで完了です。大変お疲れさまでした。

MecabをインストールしてPythonで使う【Windows】のまとめ

MecabはLinux系で利用するものになります。
本記事ではMecabをWindowsのPythonで動かそうとしていますので、大変な作業になります。

検証作業は普段利用しているWindowsで行いたいです。
そのため、Windows上でPythonからMecabを利用することに意義がありますよね。

以上で、インストールは終了です。これから、辞書作成を一緒に行い形態素解析を実施していきましょう。

 

最新情報をチェックしよう!

macabの最新記事4件