5分ちょいでわかった気になるラムダアーキテクチャ

という発表を社内勉強会でしてきました。

正規表現のテストカバレッジを測りたかった話

speakerdeck.com 社内LT大会でやった小ネタです。 Goの標準ライブラリの正規表現実装呼んでたら haya14busa さん出てきてすごい。

エンジニアとしての機械学習との付き合いかた

社内のLT大会にて表記のタイトルで発表しました。 資料は以下に公開しています。 speakerdeck.com 最近仕事ではもっぱら機械学習システムの開発を行っていますが、モデルは作れても継続的な運用や実環境での安定稼働にはまだまだ苦労することが多く、いろい…

Word Mover's Distance: word2vecの文書間距離への応用

word2vecによって得られる語の分散表現を用いて文書間の距離(非類似度)を計算する手法についての論文を読みました。 せっかくなので解説してみます。 [1] Kusner, Matt J., et al. “From word embeddings to document distances.” Proceedings of the 32nd…

今年触った技術を雑多に

なんとなく。 AWS GCPはちょっと触ってたけど、AWSは間違ってお金かかってしまいそうという謎の不安があって社会に出るまで敬遠していた。 EC2, ELB, S3, Beanstalkのような基本的なサービスに加えてRedshiftとEMRをかなり触ることになった。 覚えたり調べた…

Apache Sparkの3つのAPI: RDD, DataFrameからDatasetへ

はじめに Sparkの基本的な仕組み データコレクションの操作のためのAPI 1. RDD - ネイティブなオブジェクトのコレクション 2. DataFrame - 基本的な型の値からなるテーブル RDD v.s. DataFrame 3. Dataset - RDDとDataFrameの長所を併せ持つコレクション RDD…

1974年の仮想化技術の論文についてLTしました

8月に毎月恒例の社内LT大会があり、テーマがVMだったので、1974年の仮想化技術の論文を紹介しました。 そのときのスライドを公開します。 取り上げたのは次の論文です。 Popek, Gerald J., and Robert P. Goldberg. "Formal requirements for virtualizable …

修論と学会終わって成績表も確認したのでやっと気分が落ち着いた。 普通はこういうとき旅行とか行くのだろうけど、高校~大学で日本の8割ぐらいの都道府県は行ったし、海外は面倒なので、特に大きな計画はしてない。 近場で鳥取だけまだ訪れたことがないの…

学習アルゴリズム以外のscikit-learn便利機能と連携ライブラリ

Pythonで機械学習を使う場合、scikit-learnには何かとお世話になる。 豊富な学習アルゴリズムの実装を利用できるのが長所だが、実はアルゴリズムそのもの以外にも、前処理や評価のための様々な便利機能を有している。 これらを知らずに使っていると,車輪の…

Coursera の機械学習コースを完走して修了証を取得した話

昨年の10月から12月にかけて Cousera の機械学習オンラインコース "Machine Learning" を受講し、無事完走することができた。 www.coursera.org コースは無料で受講できるが、修得したことを公式に認定する修了証 (verified certificate) を取得するためには…

ブログ

昨日書いた今年の目標に書きそびれたけど、今年は積極的にブログ書いていきたい。 形から入るタイプなのでテーマも変えてみた。 今までこのブログは時折思い出したようにぽつんと投稿するだけで、ほぼ放置状態だった。 理由は単純で、特に書くことがなかった…

今年の目標

あけましておめでとうございます。 今年は社会に出る予定なので、時間もお金も使い方の自由度が上がると信じてる。 とりあえずいくつか目標を書いておく。 エンジニア活動 最近ちょっとずつエンジニア力ついてきた気がするので、今年は成果を積極的に公開し…

今年購読してよかったRSSフィード

大晦日なので今年買ってよかった○○エントリでも書こうと思ったけど、よく考えてみたら特に大したものは買っていない。 それもそのはずで、この1年は新しい生活のために自分の身の回り(お金・持ち物・生活習慣など)を整理しており、新しいものが増える余地…

マネーツリーとマネーフォワードを1年間使ってマネーツリーを選んだ話

うまくいけば来年4月から社会に出ることになるので、今年は家計簿をつけることを目標にしていた。 そのため、今年1月からマネーツリーとマネーフォワードという2つの家計簿アプリ(iOS)を1年間使ってみた。 moneytree.jp moneyforward.com 結論から言うとマネ…

Neo4jではてなブックマークグラフをつくってみた

最近Neo4jというデータベースに触れる機会がありました。 Neo4jはグラフ構造を扱えるデータベースシステムで、人間関係のネットワークやWebページ間のリンク関係などを扱うのに適しています。 グラフデータベースでは「友達の友達の友達」や「10以上リンクさ…

タスク管理をTodoistからWunderlistに乗り換えた

※以下は自分の利用ケースにおける主観的な感想です。 仕様は今後変わる可能性があります。 ちょっと前にタスク管理をApple標準のリマインダーからTodoistに乗り換えた。 最初はTodoistに満足していたが、使っていると時折痒いところに手が届かないことがあっ…

第1回データサイエンス・カップ 2015 春

機械学習でJリーグの観客動員を予測するコンテストで3位になったので発表会に行ってきた。 datasciencelab.jp 前から機械学習のコンテストには興味があったけどなんとなく敷居が高くて勇気が出なかった。 今回のは学生向けだし手軽にできそうなので、ものは…

Web系インターンにいくときの準備

はじめに 夏休みにいくつかのWeb系インターンに行ってきた。 会社の規模も内容も期間もいろいろだったけど、どこも楽しかったし、HadoopとかElasticSearchとかのいろんな技術に触らせてもらえて面白かった。 貴重な時間を割いていろいろ教えてくださった社員…

Sublime Text 3はいつ出るの?

当方VimもEmacsも使えないゆとりSublime Textのヘビーユーザなので3の正式版がいつ出るか出るかと心待ちにしてたんだけどなかなか出ないorz 本家のβも2013年12月のリリースで止まってるしもう気が気じゃない... それでコミュニティを見てたらこんなスレッド…

GitHubが大学に来た

大学にGitHubが講義しに来てくれた。 GitHub Kaigiってのの後でわざわざ寄ってくれたっぽい。 最初にCoby Chappleって人がGitHubでの働き方とデザインについてしゃべってくれた。 GitHubではリモート作業がデフォルトで、社員の60%がリモートらしい。 デザイ…

個人的ファイル管理

自分のファイル管理方針をまとめただけのもの。 バックアップ専用のサーバを使える人とかGitで人生の半分を管理してる人とかは好きにすればいいと思う。 あと絶対外に出せないファイルとかも対象外。 簡単に言うとこんな感じ。 ちょっとでも「無くしたら困る…

Qiitaを始めた

最近Qiitaを始めて、最新の投稿で10件目になった。 プログラミングスキルとか大したこと無いけど、研究で英語の自然言語処理ツールとか使ってたので備忘録も兼ねていろいろ書いてみた。 マニアック過ぎて誰もストックしてくれないこともあるけどマイペースに…

余ってる小さめのディスプレイは縦置きで使うと便利

マルチディスプレイするときの選択肢として「縦置き」がメジャーかは知らないが、個人的には縦置き(ピボット)可能なディスプレイというのはかなり重宝する。 そもそもドキュメントにしろWebページにしろコードにしろ基本縦長だし。 まあ最近の高解像度&ワ…

自己紹介

yubessyと言います。 Pythonが好きです。 よろしくお願いします。