WindowsでgrepしたいならSelect-Stringがいいみたい

grepではなくWindowsではSelect-Stringで検索する windows

形態素解析ライブラリのMecabを使っているのですが、ユーザー辞書を作るにも参考となるデータを探したいですね。
ipa辞書のAdj.csvやVerb.csvなどがこれにあたるのですが、この他にもNoun.adjv.csvなどいろいろあります。PowerShellでSelect-Stringすると自分的には良かったので。

  1. Select-String “文字列” 対象ファイル

PowerShell開いて”進む”を検索してみます。

> Select-String "進む" .\*.csv

Verb.csv:99327:突き進みゃ,761,761,7149,動詞,自立,*,*,五段・マ行,仮定縮約1,突き進む,ツキススミャ,ツキススミャ
Verb.csv:105792:進む,762,762,6405,動詞,自立,*,*,五段・マ行,基本形,進む,ススム,ススム
Verb.csv:105793:進ま,764,764,5401,動詞,自立,*,*,五段・マ行,未然形,進む,ススマ,ススマ
Verb.csv:105794:進も,763,763,6165,動詞,自立,*,*,五段・マ行,未然ウ接続,進む,ススモ,ススモ
Verb.csv:105795:進み,767,767,5324,動詞,自立,*,*,五段・マ行,連用形,進む,ススミ,ススミ
Verb.csv:105796:進ん,766,766,6138,動詞,自立,*,*,五段・マ行,連用タ接続,進む,ススン,ススン
Verb.csv:105797:進め,760,760,6395,動詞,自立,*,*,五段・マ行,仮定形,進む,ススメ,ススメ
Verb.csv:105798:進め,765,765,6395,動詞,自立,*,*,五段・マ行,命令e,進む,ススメ,ススメ

動詞なので、Verb.csvに、”進む”には”突き進む”や”買い進む”などが登録されているのがわかりますね。表層形,左文脈ID,右文脈ID,コスト,・・と書いてあるので、これを参考にユーザー辞書を作成していけばOKそうです。

スポンサーリンク

2. Mecab IPA辞書のエントリcsvはEUCなのでUTF-8などに変換しておく

Mecabでは特に指定しない限りEUCが使われるとのことなのでcsvもメモ帳で開いてみると文字化けします。あらかじめUTF-8などに変換しておけば良いかと。
日本語Windowsの既定であるSJISとUTF8(BOMあり)とUTF16がマッチするらしいです。

PowerShell/文字列/Select-Stringの対象ファイルの文字エンコード - yanor.net/wiki

3. 参考リンク

MeCab: Yet Another Part-of-Speech and Morphological Analyzer
MeCab: 単語の追加方法

コメント

タイトルとURLをコピーしました