Binary Diary

ありのままでいいのかな

全ての記事をテキストマイニングしてみた

どうもこたにんです。

今までの全ての記事をテキストマイニングしてみた!

昨日は、全ての記事タイトルをテキストマイニングしてみました。

www.kotanin0.work

 

今回は、全ての記事の中身でやってみました!!!
早速、結果どん!

f:id:Kotanin0:20191223001004p:plain

自分で見てて、かなり納得の単語がたくさんありますね。
時間、採用、エンジニア、wikipediatwitterなどなど。

これ、はてなブログAPI的なものから全記事のコンテンツを取得してみたのですが。
(取得の方法は改めて別記事書きます)

HTMLな感じだから、ノイズになるキーワードがめちゃくちゃ多くて。

<content type="text/html">&lt;p&gt;どうもこたにんです。&lt;br /&gt;&lt;br /&gt;&lt;/p&gt;

&lt;h3&gt;今までの全ての記事タイトルをテキストマイニングしてみた!&lt;/h3&gt;

&lt;p&gt;年の瀬だし、大掃除しようと思って。&lt;br /&gt;PC開いていたら唐突に、テキストマイニングしたくなりまして。&lt;br /&gt;まずは結果から、あらよっと!&lt;br /&gt;&lt;br /&gt;&lt;/p&gt;

こんな感じで、gtやらltやら。
はてなブログの記事投稿機能がよしなに付けてくれるcssとかも取れちゃって。
なのでテキストマイニング内に謎の英文字が混ざっていたりする、しゃーなし。

このテキストマイニングに至る手段はこんな感じ。

  • はてなブログAPI(AtomPub)の設定を行う
  • GASでAPI通信してレスポンスをゴニョってファイル出力する
  • そのファイルをmecabに食べさせる

とりあえず、mecabに食べさせるためのファイルを作りたかった。
ので、さくっとGASで作るという手段にしてみました。

AtomPubのAPI通信(xml)とParserライブラリの組み合わせげきつよだった。
ので、後日詳細書く!