Skip to the content.

機械学習系研究あるある「マシンパワーが足りない」

もう最近ずっとこれにぶち当たってる。マシンパワーが足りないためにせっかく集めたデータをサンプリングして小さいデータセットでトライしないといけなかったり。 CPUが潤沢に使えればいいんだけど、そんな都合良くCPUがゴロゴロ転がってたらそんなに苦労していない。 やっぱ16コアorそれ以上のCPUを使っていきたいんだよなあ。。。。

でも、そもそもCPU使わなきゃいいんじゃねっていう話もあるわけで。

scikit-learn は便利すぎるけど・・・

scikit-learn はとても便利。数式モデルをわざわざロジックにおとさなくてももう大抵のモデルは実装されている。しかも!そのモデルが他のモデルの実装と出力などが互換性があるというおいしいおまけ付き。 え、機械学習だから基本浮動小数点が入ったテンソルをやり取りしてるだけじゃないの???(だからライブラリの互換性とか考えなくていい)みたいなことを言われることもあるんだけど、確かに間違ってない。 けど微妙に困ることがある。例えば、 numpy配列に何でか list の多次元配列がいい感じに変換されずに詰まったり。別に解決できないわけじゃないんだけど、いちいちライブラリ(あるいは論文著者の実装)を超える度にその辺を気にするのはコスパが悪いという・・・。

でも、scikit-learnをつかっている以上はGPUを使うのは難しい。というかほぼ無理。せいぜい前処理とかをcupyでやるとかそれの程度でしか出来てない。 TensorFlowで書き直せばGPUパワーとかGoogle TPUとか使えるんだよなあと思うと涎が出るけど、どうしても社会人学生は時間が無いのであった・・・。

もうすぐ原稿submitしたいなって思ってる

近々、原稿を出したいな~って思ってるテーマがあって。ブログとかには原稿が公開されるまでアレコレ詳しいことは書かないつもりだけど、原稿が公開されたらどんどんソースコードとか出していきたいね、って思う。 この原稿が公開されるまでのやきもきを共有できるメンバーが少なくて社会人学生はさびしい。その分、学部生の時は楽しかったなって振り返って思ったり。