MeCabを試す2

CORESERVERPHP

 状態:確認中  閲覧数:3,270  投稿日:2012-06-05  更新日:2017-03-23


<コマンド でどこまで出来るか?>
(1) ブログ記事を取得する
(2) ブログ記事から本文をスクレイピングする
(3) 本文を形態素解析する
ここでやっていることは、
1.形態素解析した結果、品詞ID38(一般名詞)、41(固有名詞:一般)、47(固有名詞:地名)のものだけ取得
2.出現頻度が10回以上の単語を抽出

それでは、まず、「(3)-1」品詞ID38、41、47のものだけ取得
が出来るかどうか検証していく。

そもそも、「品詞ID38、41、47」って何?
・名詞,一般,*,* 38
・名詞,固有名詞,一般,* 41
・名詞,固有名詞,地域,国 47

「pos-id.def の例」って、その「pos-id.def」自体が何か分からんわ。

>設定ファイル
>配布辞書のディレクトリにある pos-id.def を変更します.
>pos-id を変更したら, 辞書をリコンパイルする必要があります.
てことは、辞書の設定ファイル? 変更したら、またmakeとかしないといけないの?

▼/lib/mecab/mecab-ipadic-2.7.0-20070801/

   | 
名詞,一般,*,* 38
名詞,引用文字列,*,* 39
名詞,形容動詞語幹,*,* 40
名詞,固有名詞,一般,* 41
名詞,固有名詞,人名,一般 42
名詞,固有名詞,人名,姓 43
名詞,固有名詞,人名,名 44
名詞,固有名詞,組織,* 45
名詞,固有名詞,地域,一般 46
名詞,固有名詞,地域,国 47
名詞,数,*,* 48
   |

    
・「コサイン類似度」自体は、「形態素解析」とか全く関係ない
コサイン類似度を求める


◆レコメンドライブラリ
協調フィルタリングを行うライブラリVogoo PHP LIBを使ってみた


「Igo-php ― PHPによる形態素解析プログラム」
>MeCab由来の辞書を利用して、ほぼMeCab互換の解析結果が得られます
Igo-php ― PHPによる形態素解析プログラム


MeCab

CORESERVERで「Ideone API」