2022年のご挨拶と今年の方針

新年明けましておめでとうございます。本年もよろしくお願いします。

さて、今年のこのブログの更新方針について決めたのでまとめておきます。
昨年末の記事でも少し頭出ししていましたが、ブログに限らず今年の計画や目標について考え、今年1年はアウトプットよりもインプットを重視した年にしようと決めました。また、その内容もデータサイエンス関連に限らず幅広く吸収していく年にしたいです。

アウトプットの時間は減らしたいのとインプット内容にこのブログ記事につながるようなテーマの物が減るということで、このブログの更新ペースは落とします。昨年の半分くらいにして週1回更新、年間50記事程度を目標にゆっくりやっていこうと思います。もし書きたいことがありすぎて困るようなことになったらまたその時にペースを見直すかもしれませんが。

僕はもともと読書が好きで色々なジャンルの本を幅広く読んでいました。その後、2017年に転職してデータサイエンティストになってからこの5年ほどの期間、まずは仕事で使うデータ分析のスキルを優先しようということで読む本がほとんど広い意味でのデータサイエンス関連や、ドメイン知識としての人材業界関連の本ばかりになっていました。特にそれが不満というわけでもなく、どんどん新しい知識が身に付き、できることが増えていくことにやりがいも感じていました。この分野は本当に学ぶことが多く、この先も興味が尽きることはなさそうです。ただその一方で、趣味に関する本とか書店でたまたま見かけて興味を持った本とか話題のベストセラー等々の他の読みたい本を読むのが完全に後回しになってきたのも事実です。

今年もデータ分析の勉強は継続はしますし、今の時点で絶対読みたいと思ってる本はそこそこあるのですがが、それらを読むのは月に1〜2冊程度に抑えようと思ってます。そして浮いた時間はまた昔みたいに、仕事や実用性を無視して興味を持ったものを何でも読んでいく時間にします。

その他、流石に3年も運用しているとこのブログにも色々改善したい点あったり、内容が古くなってしまった記事などもあります。新規の記事を書く時間を減らした範囲内で、過去記事の見直しなどを含めたメンテナンスにも細々と着手しようと思います。例えば「プログラミング」っていう非常に雑なカテゴリに多くの記事が集中してしまっているのでこの辺の見直しもしたいです。

以上のような方針のためこのブログの更新は昨年に比べてゆっくりになりますが、本年もよろしくお願いいたします。

2021年のまとめ

2021年の最後の投稿になります。

本年も訪問者の皆様には大変お世話になりました。書いた記事が多くの方に読んでいただけたということはもちろんですが、土日祝日なども平日より少ないとはいえ多くのアクセスがあり、休日も技術的な調べ物をしている熱心な人たちがいると実感できることは自分が学習を続けていく上でも大きな励みになりました。

今年も1年間の振り返りをやっていきたいと思います。本年までの累積の記事数および、年間のアクセス数は次のようになりました。
– 累計記事数 514記事 (この記事含む。昨年時点 409記事)
– 訪問ユーザー数 200,661人 (昨年実績 146,674人)
– ページビュー 348,595回 (昨年実績 258,698回)

年間100記事更新の目標を無事に達成でき、それに伴って訪問者の数も増えているので達成感を感じています。

とはいえ、多くのpvを集めているのは古い記事が多く、今年特に力を入れて書いたMeCabのアルゴリズムの話や、AWSのAI関連サービスの話、トレジャーデータの小ネタなどはあまり読まれていないようです。テーマ選びなのか僕の文章力なのか、なんらかの課題はあるように感じています。

さて、恒例のよく読まれた記事ランキングを見ていきましょう。
今回は2021年1年間でのPV数によるランキングです。

  1. matplotlibのグラフを高解像度で保存する (昨年1位)
  2. ネットワークグラフの中心性 (New)
  3. Pythonで連続した日付のリストを作る (New)
  4. pyenvで作成した環境を消す (New)
  5. TensorflowやKerasでJupyterカーネルが落ちるようになってしまった場合の対応 (New)
  6. numpyのpercentile関数の仕様を確認する (昨年4位)
  7. INSERT文でWITH句を使う (昨年7位)
  8. matplotlibでグラフ枠から見た指定の位置にテキストを挿入する (New)
  9. kerasのto_categoricalを使ってみる (昨年3位)
  10. Pythonで多変量正規分布に従う乱数を生成する (昨年10位)

Googleアナリティクスで確認した時、1位と10位が昨年と同じなので今年もあまり変わり映えしないなという印象を持っていました。しかし、改めて昨年のランキングと比較してみると昨年ランクインしなかった記事が5記事も入っており意外と顔ぶれ変わってましたね。

このブログもこれで開設から丸三年になります。流石にネタ切れを感じる日もあるので来年の運用をどうしようかと考えています。(とはいえ、ブログネタのストックは今時点で40個程度はあるので本当の意味ではネタ切れしてないのですが、書きたいけどなかなか筆が進まないものやタイミングを逃した感があるのも多く難しいところです。)

来年も技術的なスキルアップを目指した学習はもちろん続けていきますし、仕事の中での疑問や課題感からネタが出てくることもあると思うので、ブログの更新自体は続けていきます。ただ、技術関連以外のインプットにももっと力を入れていきたいですし、休日の時間を今以上に読書や講座受講などに使いたいので、更新頻度は見直したほうがいいかもとは思っています。

この年末年始で来年をどう過ごすかを考えて、その中でブログの運用方針も決めたいと思います。

それではみなさん、今年も1年間ありがとうございました。良いお年を。

勤務先のテックブログの宣伝

現在、週2回のペースでこの(私用の)ブログを更新していますが、実はここ以外にも勤務先であるオープンワーク社のテックブログにも記事を投稿しています。
投稿頻度はこのブログに比べて非常に低く、僕はまだ4記事しか投稿していないのですが、
その分、1記事1記事は丁寧に時間をかけて書いてきました。

こちらのブログには書いてこなかった、実際に仕事でやっている内容と密接した記事も書いていますので、
もしご興味のあるかたがいらっしゃいましたらこれらの記事も読んでいただけると嬉しいです。

僕が投稿した記事は以下の4記事になります(新しい順。)

OpenWorkの年齢別年収機能の裏側
ABテストの目的と分析時にアナリストが考えていること
企業の”採用力”を指標化しようとして失敗した話
オープンワークのアナリストが分析していること

次の更新は未定ですが、また新しい記事を更新したらこちらのブログでも紹介させていただこうと思います。

2021年上半期(1月~6月)によく読まれた記事

2021年もあっという間に半分が終わってしまいました。
ここで恒例(?)のよく読まれた記事ランキングを掲載したいと思います。

参考ですが、昨年1年間のよく読まれた記事ランキングはこちらです。
参考: 2020年のまとめ

では早速発表していきます。
集計期間は2021年1月から6月まで。pvでソートしています。

  1. matplotlibのグラフを高解像度で保存する
  2. ネットワークグラフの中心性
  3. pyenvで作成した環境を消す
  4. TensorflowやKerasでJupyterカーネルが落ちるようになってしまった場合の対応
  5. Pythonで連続した日付のリストを作る
  6. numpyのpercentile関数の仕様を確認する
  7. matplotlibのデフォルトのフォントを変更する
  8. INSERT文でWITH句を使う
  9. kerasのto_categoricalを使ってみる
  10. scipyで階層的クラスタリング

相変わらず、プログラミングのちょっとした小ネタのような記事が人気を集めていますね。
このブログ自体そういう記事が多いので、やむを得ないことですが。

データサイエンティストのブログらしい記事としては、
今回ネットワークグラフの中心性の記事が2位にランクインしました。
これを書いたのは昨年なのですが、当時ネットワーク解析について色々勉強して書いた記事だったので、
ニーズがあって嬉しいです。

2021年のご挨拶と今年の方針

新年明けましておめでとうございます。本年もよろしくお願いします。

年末年始の間、このブログの目標をどうしようかなと考えていたのですが、
一旦は昨年と同じペースを維持することを目指したいと思います。
と言うことで、今年も年間100記事の更新を目指します。
随分前からネタ切れ感もあるのですが、
100記事の目標があればネタ探しを兼ねたインプットにも力を入れられると思います。

気合を入れて書いた記事よりもちょっとした小ネタのような記事の方がニーズがあることもはっきりしてきたことですし、
何か調べたら何か書く、くらいのテンションで今年もやっていきたです。

また、技術記事以外の記事も増やしたい(と昨年も言ってたのに結局書かなかった)ので、
今年こそポエム記事も書いていきたいと思います。

2020年のまとめ

今年も一年間お世話になりました。
多くの方に訪問いただけていたのでモチベーションを失わずにブログ更新を続けることができました。

2020年最後の投稿になりますので、今年1年間の振り返りをしたいと思います。

まず基本的なデータ。記事数はトータル、残り二つは2020年1年間の実績です。

– 記事数 409記事 (この記事含む)
– 訪問ユーザー数 146,674人
– ページビュー 258,698回

2019年と比べて、どの数値も大きく伸びていることがわかります。
更新頻度こそ2019年から落としていますが、更新を続けることによって(結果的に記事にしなかった内容も含めて)多くの学びを得ることができた1年間でした。

さて、恒例のよく読まれた記事ランキングをみていきましょう。
今回は2020年1年間でのPV数によるランキングです。

  1. matplotlibのグラフを高解像度で保存する
  2. macにgraphvizをインストールする
  3. kerasのto_categoricalを使ってみる
  4. numpyのpercentile関数の仕様を確認する
  5. scipyで階層的クラスタリング
  6. DataFrameを特定の列の値によって分割する
  7. INSERT文でWITH句を使う
  8. matplotlibのデフォルトのフォントを変更する
  9. pythonで累積和
  10. Pythonで多変量正規分布に従う乱数を生成する

あれ、今年書いた記事があんまりランクインしてないような。
基本的な内容の記事がニーズが高い傾向にはあるようですね。

僕自身の備忘録的な記事も多く、これは本当に訪問される皆さんの役に立ってるのかと心配になることも多いのですが、
アクセスを見る限りではちゃんとニーズがあったようで嬉しいです。
無理して内容のレベルを上げるよりも今の調子での更新が良いのかもしれませんね。

さて、年初に立てた目標の方も振り返ってみると、更新回数以外の目標はさっぱりでした。
参考: 2020年のご挨拶と今年の目標
Kaggleはそのうち挑戦しようと思いつつ全然やってないし、
技術記事以外の記事もさっぱり書いていません。
技術記事だけで100記事書けたと言うことでもあるので、それが悪いわけではないのですが当初思ってたのとは方向がずれたかなと思います。

来年どのくらい記事を書くかとか、その内容とかはブログ以外の目標やプランともすり合わせて計画を立てて、
年初の記事で方針発表させていただけたらと思います。

今年も1年間ありがとうございました。良いお年を。

2020年上半期(1月~6月)によく読まれた記事

早いもので2020年が半分終わってしまいました。
今年はブログ更新頻度を落としているのもあり、四半期でのランキング発表をやめているので、
この辺で半年間に読まれた記事のランキングを出したいと思います。

参考ですが、昨年1年間のランキングはこちらです。
参考: 2019年のまとめ

では早速ランキング発表です。
集計期間は 2020年1月から6月まで。pvで並べています。

  1. matplotlibのグラフを高解像度で保存する
  2. macにgraphvizをインストールする
  3. pythonで累積和
  4. DataFrameを特定の列の値によって分割する
  5. INSERT文でWITH句を使う
  6. kerasのto_categoricalを使ってみる
  7. numpyのpercentile関数の仕様を確認する
  8. scipyで階層的クラスタリング
  9. matplotlibのデフォルトのフォントを変更する
  10. graphvizで決定木を可視化

データサイエンスというより、プログラミングのちょっとしたTips的な記事の方がよくpvを集めていますね。
今年はネットワーク解析/グラフ理論の記事も頑張って書いたので今後はそれらのランクインも期待したいです。

2020年のご挨拶と今年の目標

新年明けましておめでとうございます。本年もよろしくお願いします。

年明け最初の投稿なので、本年の目標をまとめておきたいと思います。
細かい目標は他にも多々ありますが、データサイエンティストとしてのスキルアップの観点では、
次の二つを重点目標として、取り組みます。

1. kaggleのコンペに挑戦する

一つ目の目標はこれです。今年はブログ以外の技術アウトプットとして、kaggleに挑戦したいと思っています。
データサイエンティストではありますが、業務では機械学習以外の仕事が多く、
ぼーっとしているとなかなか技術が伸びていきません。
そのままだと稀に機械学習のタスクが発生した時に十分な成果が出せず非常に苦労します。
今は東京大学の通信講座であるDL4USを受講していますが、もうまもなく最終課題も終わるので、
その次の挑戦としてコンペに参加していこうと思います。
もちろんメダルを目指したいですが、まずはコンペに取り組む習慣づくりからはじめて、
常に何かしらのコンペに取り組んでいる状態を維持します。

2. ブログ記事100件投稿

昨年は306記事投稿していますが、予告通りペースを落とします。
ただ、それでも投稿自体は継続し、1週間に2記事のペースで年間100記事を目指します。
内容も見直していく予定です。
いきなりキャリア系のポエム記事ばかりにするつもりはなく、今まで通りのノリの投稿も続けますが、
キャリア系の記事でも誰かの参考になることがあると思うので、徐々に発信の幅を広げていきたいです。
特に30歳を超えて未経験の状態からいきなりデータサイエンティストに転職してきた頃の話とか、
その後、分析チームのマネジメントや採用業務等も担当するようになっているので、
何かしら誰かの参考になる話もあるかと思います。

2019年のまとめ

2019年最後の更新です。
今年から始めたブログでしたが無事に1年間更新を続けることができました。
ということでGoogleアナリティクスのデータ等も見ながら、振り返って見ます。
(記事執筆時点のデータなので後日残り1日文のデータを入れて更新するかも)

まず基本的なデータ。

– 記事数 305 記事 (この記事含む)
– 訪問ユーザー数 23,803人
– ページビュー 36,569回

密かに目標にしていた300記事は無事に達成し、アクセスもそこそこ集まるようになりました。
どこまで役に立っているのかわかりませんが少なくとも更新する意味はあるブログになってきたのかなと思います。

実際、更新してきてどうだったか、という観点の話はつい先日300記事達成の投稿で書いたので省略します。

次は今年よく読まれた記事の紹介です。
トップテンは次のようになりました。

  1. macにgraphvizをインストールする
  2. pythonでARモデルの推定
  3. DataFrameを特定の列の値によって分割する
  4. graphvizで決定木を可視化
  5. pandasでgroupbyした時に複数の集計関数を同時に適用する
  6. pythonで編集距離(レーベンシュタイン距離)を求める
  7. scikit-learnでテキストをBoWやtfidfに変換する時に一文字の単語も学習対象に含める
  8. Prestoで1ヶ月後の時刻を求める時に気をつけること
  9. pythonで累積和
  10. pythonでARMAモデルの推定

ベスト5は3Qの時とほとんど変化していませんが、6位から10位は少し意外なのも入っていますね。累積和など。
データサイエンティスト色をもっと強めたいなとは思うのですが、とりあえず技術ブログっぽいものにはなったと思います。

元々、各所に散らばってしまっていた自分のメモや検証結果などを一箇所にまとめたいという思いで始め、
訪問者のことよりも自分にとっての使いやすさ重視の記事が多いブログですが、
多くのかたに訪問していただきとてもありがたく思います。

さて、来年の更新ですが、今のペースでやっていくのは少し難しいと思っているので、更新頻度は見直したいと思っています。
というのも、最近は自分の学習時間においてブログへのアウトプットの比重が高まりすぎ、
腰を据えたインプットがおろそかになっているという課題も感じているからです。

年末年始に来年の目標と計画を整理し、このブログの運用はちょうどいい塩梅を探しながら続けていきたいと思います。
とりあえずお正月期間は更新をお休みし、来年の更新は6日以降から再開予定です。

今年一年ありがとうございました。良いお年を。

ブログ記事数300記事達成

このブログを開設してからもうすぐ1年になります。
そして、日々せっせと書いてきた記事数がいよいよこの記事で300記事になりました。

もうしばらくしたら年間の振り返り記事も書くので時期的に微妙なのですが、
記事数のキリが良いので100記事の時の記事も見つつ、ちょっと振り返りをやってみます。
参考: 記事数が100を超えていました

日々の訪問者数がかなり伸びてきた

100記事の頃は日々20〜30人のかたがきてくださることを喜んでいたのですが、
今では平日は1日300人以上の訪問があるようになりました。(休日はもう少し減ります。)

以前はライブラリやモジュールのインストール記事や、エラーメッセージを貼り付けたような記事でアクセスの多くを稼いでいたのですが、
今では、時系列データ分析関係の記事や、pandasの使い方、scikit-learnやkerasの記事などにもある程度の量のアクセスが集まるようになりました。
(と言っても、graphvizの記事が一番人気であることは変わりませんが。)
Qiitaからの流入が出始めたのも最近のことです。

自分用のリファレンスとして便利になってきた

流石に300も記事を書くと、内容を全部覚えているわけでは無いのでこのブログで調べ物をする機会も度々発生するようになりました。
元々は、一度は気になって調べて自分が使ってるどれかの端末化サーバのどこかにメモが残ってるものが多いのですが、それを探すのはかなり手間です。
そのため、このブログに書いたような気がする内容はまずここで検索するようになりました。
当たり前ですが記事中のコードは自分が好きなスタイルで書いてるのでコピペでも使いやすく快適です。
(訪問者の方にとって使いやすいか、という点でまだ課題がある気がします。)

記事を書くためにネタを探すことも増えてきた

流石に最近は、明日のブログ記事を何にしようかと悩むことも増えてきました。
ただ、このブログを書く中で、各ライブラリの公式ドキュメントなどを読む習慣もついているので、
そのような時は主要なライブラリのドキュントを読み漁ってネタを探しています。
それはそれで新しい発見もあり、勉強になるので元々が必要に迫られた情報ばかりだった頃とは違った意味で勉強になると感じています。
ただ、ネタ探しに時間がかかる分、肝心の記事が内容が浅くなりがちでそれは反省しないといけません。

今後の方針について

残り少ないですが今年いっぱいは今のペースで続ける予定です。
ただ、来年の方針は考え直そうと思ってます。

1日1記事のペースでかけるネタが枯渇している一方で、時間かけてしっかり書きたい内容は色々あります。
具体的なペースとか、来年の記事数の目標とかはブログ以外の目標等も含めてしっかり練って、
年末年始の間にでも決めたいと思ってます。

時系列データ分析の話題で言えば、ベクトル自己回帰や状態空間モデルの話をまだかけていないですし。
ディープラーニングの話題でも、普段よく使っているLSTMなどの話をかけていません。
自然言語処理もまだまだで、早めに書きたいと思ってたword2vecの話題が未登場です。

1日1記事のペースを維持しようと、自分がしっかり時間かけてしっかり書きたい記事がかけずに
さっと出せる小ネタを探す傾向が最近強いので、きちんと振り返ってもっと有益な形でブログ更新を続けたいです。