エンジニアとしての機械学習との付き合いかた

社内のLT大会にて表記のタイトルで発表しました。 資料は以下に公開しています。 speakerdeck.com 最近仕事ではもっぱら機械学習システムの開発を行っていますが、モデルは作れても継続的な運用や実環境での安定稼働にはまだまだ苦労することが多く、いろい…

Word Mover's Distance: word2vecの文書間距離への応用

word2vecによって得られる語の分散表現を用いて文書間の距離(非類似度)を計算する手法についての論文を読みました。 せっかくなので解説してみます。 [1] Kusner, Matt J., et al. “From word embeddings to document distances.” Proceedings of the 32nd…

今年触った技術を雑多に

なんとなく。 AWS GCPはちょっと触ってたけど、AWSは間違ってお金かかってしまいそうという謎の不安があって社会に出るまで敬遠していた。 EC2, ELB, S3, Beanstalkのような基本的なサービスに加えてRedshiftとEMRをかなり触ることになった。 覚えたり調べた…

Apache Sparkの3つのAPI: RDD, DataFrameからDatasetへ

はじめに Sparkの基本的な仕組み データコレクションの操作のためのAPI 1. RDD - ネイティブなオブジェクトのコレクション 2. DataFrame - 基本的な型の値からなるテーブル RDD v.s. DataFrame 3. Dataset - RDDとDataFrameの長所を併せ持つコレクション RDD…

1974年の仮想化技術の論文についてLTしました

8月に毎月恒例の社内LT大会があり、テーマがVMだったので、1974年の仮想化技術の論文を紹介しました。 そのときのスライドを公開します。 取り上げたのは次の論文です。 Popek, Gerald J., and Robert P. Goldberg. "Formal requirements for virtualizable …