状態:確認中
閲覧数:3,343
投稿日:2012-06-05
更新日:2017-03-23
<コマンド でどこまで出来るか?>
(1) ブログ記事を取得する
(2) ブログ記事から本文をスクレイピングする
(3) 本文を形態素解析する
ここでやっていることは、
1.形態素解析した結果、品詞ID38(一般名詞)、41(固有名詞:一般)、47(固有名詞:地名)のものだけ取得
2.出現頻度が10回以上の単語を抽出
それでは、まず、「(3)-1」品詞ID38、41、47のものだけ取得
が出来るかどうか検証していく。
そもそも、「品詞ID38、41、47」って何?
・名詞,一般,*,* 38
・名詞,固有名詞,一般,* 41
・名詞,固有名詞,地域,国 47
「pos-id.def の例」って、その「pos-id.def」自体が何か分からんわ。
>設定ファイル
>配布辞書のディレクトリにある pos-id.def を変更します.
>pos-id を変更したら, 辞書をリコンパイルする必要があります.
てことは、辞書の設定ファイル? 変更したら、またmakeとかしないといけないの?
▼/lib/mecab/mecab-ipadic-2.7.0-20070801/
|
名詞,一般,*,* 38
名詞,引用文字列,*,* 39
名詞,形容動詞語幹,*,* 40
名詞,固有名詞,一般,* 41
名詞,固有名詞,人名,一般 42
名詞,固有名詞,人名,姓 43
名詞,固有名詞,人名,名 44
名詞,固有名詞,組織,* 45
名詞,固有名詞,地域,一般 46
名詞,固有名詞,地域,国 47
名詞,数,*,* 48
|
名詞,一般,*,* 38
名詞,引用文字列,*,* 39
名詞,形容動詞語幹,*,* 40
名詞,固有名詞,一般,* 41
名詞,固有名詞,人名,一般 42
名詞,固有名詞,人名,姓 43
名詞,固有名詞,人名,名 44
名詞,固有名詞,組織,* 45
名詞,固有名詞,地域,一般 46
名詞,固有名詞,地域,国 47
名詞,数,*,* 48
|
・「コサイン類似度」自体は、「形態素解析」とか全く関係ない
コサイン類似度を求める
◆レコメンドライブラリ
・協調フィルタリングを行うライブラリVogoo PHP LIBを使ってみた
「Igo-php ― PHPによる形態素解析プログラム」
>MeCab由来の辞書を利用して、ほぼMeCab互換の解析結果が得られます
Igo-php ― PHPによる形態素解析プログラム