pei’s blog

情報系の大学を出たSE1年生。主にプログラミング(機械学習寄り)の話題を書いていきます。

読みやすい・短いコードを書くための工夫(初心者向け)

お久しぶりです。今回は初心者にがより読みやすく・短くなるコードを書くための4点の工夫について書いていきます。新卒で入った企業でプログラミングの研修をしている時に周りの未経験者に教えたらコードが短く読みやすくなった手法についていくつか書いてい…

久々に機械学習の論文読みました

From Social Media to Public Health Surveillance: Word Embedding based Clustering Method for Twitter Classificationという論文を読んだのでさらっと内容を紹介していきます。 私は教師あり学習を使う機会が多く、教師なし学習が実際にどう用いられてい…

VueJSで子コンポーネントにメソッドを渡す

子コンポーネントにv-bind="{メソッド名}"を指定することで、props経由で親コンポーネントのメソッドを渡せます。 ちなみに子コンポーネントで(this.)$parent.親メソッドでも実行できますが非推奨みたいです。 $parentを使った直接参照はコンポーネント間の…

VueJSでタスク管理アプリを作ってみた。

VueJSで簡単なタスク管理アプリを1ヶ月くらいちまちま作ってたので仕組みとか書いていきます。Herokuでテキトーにデプロイしました。 VueJS初学者、仕組みなどが分からない人の参考になれば嬉しいです。 作ったWebアプリはこちら(herokuの無料枠のため時間…

機械学習でテキスト分類器を作る

今回は私が作った機械学習を使った教師ありデータを用いるテキスト分類器(ざっくりいうと例えばテキストがスパムかそうでないかを自動で識別するなど)のシステム構成について説明します。 教師ありデータとは答えとデータがセットになっているデータのこと…

エッセンシャル思考を読みました。

エッセンシャル思考という本を読んだので紹介します。仕事術・自己啓発本のようなジャンルの本です。どんな本? ざっくりいうと広く浅くではなく、狭く深くで質を高めようという内容です。選ぶ・捨てる・手放す・削るのような言葉がキーワードです。 それを…

SQLのWHERE句の書き方による実行速度の違い

今回はSQLの書き方によって実行速度がどのくらい変わるのか簡単な実験をします。 最近バイトでSQLを書いている時、よく「WHERE句の記述の順序を変えたらどのくらいパフォーマンスが変わるのだろう?」と思っていたのでやってみました。 目次 準備 実験内容 …

参考書レビュー 詳解ディープラーニング

今回は詳解ディープラーニングのレビューについて書きます。※私個人の感想です。 ざっくり言うとどんな本?ニューラルネットワークの道具としての使い方がわかり、なおかつ仕組みについても詳しくわかる本です。目次 前提知識 内容 特徴 他の参考書との違い …

Python pickle化できないときの解決策(dill)

今回はPythonのオブジェクトをシリアライズするライブラリのdillについて書きます。 pythonのシリアライズはpickleを使っている人が多いと思いますが、pickleだと特定の条件での関数オブジェクトをシリアライズできないなどの制約があります。こんなコード…

Pythonでドキュメントの重み付け(Okapi BM25)

今回はOkapi BM25での文書の重み付けを実装します。目次 Okapi BM25とは 実装 導入してみた Okapi BM25とは TF-IDFに似た文書の重み付けの方法です。wikipedia(英語) 以下の式で表されます。 Dはドキュメント、Qは検索したい単語の集合、はQ中の単語、|D|は…

pythonで機械学習(kerasのOneHotレイヤーの作り方)

今回はkerasで学習時にOneHotベクトル化するレイヤーの作り方を書きます。テキスト分類などでは、学習の前に特徴ベクトル化するとメモリを大量に消費してしまい、PCのスペックが高くないとメモリ不足で動かなくなることがあります。それなら学習前はOneHotベ…

IT系就活についての話

私と友達の話や経験を元にIT系(主に独立系SIer、Web企業)の就活に向けてやっておくといいことをまとめてみました。目次 この記事の対象とする人 軽く自己紹介 なにをしておくといい? まとめ この記事の対象とする人 この記事は 独立系SIer、もしくはweb企…

Pythonでテキストの機械学習(相互情報量を使った特徴ベクトル選定)

今回は、ドキュメント群から生成したベクトルから、機械学習で重要な特徴ベクトルを抽出する内容です。テキストをベクトル化したものは何万次元にもなりますが、中には10000個あるドキュメントの中で1回しか出てこない単語など学習に必要のないデータが大量…

Pythonでsklearn+janomeを使って特徴ベクトル抽出

機械学習において入力データの形式はとても大事です。分類手法以上に大事かもしれないですね。今回はその重要な入力データの作り方(加工の仕方)についてです。テキストから機械学習に適した形の入力データに加工します。ライブラリを使うことで短く簡潔に…

Pythonでワードクラウド作ってみた

今回はPythonでワードクラウドを作ってみました。ワードクラウドとは 追記:英語のみ対応です。ライブラリ(pytagcloud)が日本語に対応していないので...。日本語に対応させたいなら描画のところは自前で書く必要がありますね(^^; 全体の流れは 1.ドキュメン…