どうもこたにんです。
今までの全ての記事をテキストマイニングしてみた!
昨日は、全ての記事タイトルをテキストマイニングしてみました。
今回は、全ての記事の中身でやってみました!!!
早速、結果どん!
自分で見てて、かなり納得の単語がたくさんありますね。
時間、採用、エンジニア、wikipedia、twitterなどなど。
これ、はてなブログAPI的なものから全記事のコンテンツを取得してみたのですが。
(取得の方法は改めて別記事書きます)
HTMLな感じだから、ノイズになるキーワードがめちゃくちゃ多くて。
: <content type="text/html"><p>どうもこたにんです。<br /><br /></p> <h3>今までの全ての記事タイトルをテキストマイニングしてみた!</h3> <p>年の瀬だし、大掃除しようと思って。<br />PC開いていたら唐突に、テキストマイニングしたくなりまして。<br />まずは結果から、あらよっと!<br /><br /></p> :
こんな感じで、gtやらltやら。
はてなブログの記事投稿機能がよしなに付けてくれるcssとかも取れちゃって。
なのでテキストマイニング内に謎の英文字が混ざっていたりする、しゃーなし。
このテキストマイニングに至る手段はこんな感じ。
とりあえず、mecabに食べさせるためのファイルを作りたかった。
ので、さくっとGASで作るという手段にしてみました。
AtomPubのAPI通信(xml)とParserライブラリの組み合わせげきつよだった。
ので、後日詳細書く!