2023年のご挨拶

新年明けましておめでとうございます。本年もこのブログをよろしくお願いします。

早速ですが今年のこのブログの更新方針を決めました。昨年同様に今年もしっかりインプットの時間を確保し、ブログへのアウトプットは少なめに週1回の更新を目指していきたいと思っています。

今年は新年早々から統計数理研究所の講座受講も2件決まっていたり、参加したいセミナーやミートアップも既にいくつかあるので積極的に動いていきたいです。昨年からすうがくぶんか社のセミナーも受講していますが、今年も何か面白そうなのを探して受講しようと思います。また、書籍についても昨年後半出た本が複数あり、まだ追いついていないので順次読んでいきます。

昨年はインプットを増やすと言って一番増えたのがビジネス系Youtubeの視聴時間だったので、今年はちゃんと読書時間を増やしたいです。Youtubeは最初は良かったのですが、冷静に見ると似たようなネタの繰り返しが多くてそろそろ減らしていいかなと思ってます。

このブログはネタ帳を用意していてそこに常時数十個のテーマを列挙しており、そこからその日の気分でピックアップして書いています。大体その執筆時点で新しく知ったばかりのことを優先的に選んで書いてるのですが、そうやって場当たり的に書いていると、タイミングを逸していつか書きたいと思ったまま放置状態になってしまっているテーマがたくさん残ってしまいました。この点は反省していて、そのうち書こうと思っていたけど放置してた系の記事をもっと書くようにしたいなと思っています。

例えば以下のような内容がいつか書かねばと思って放置された状態です。物によってはブログ開設前(2018年)にリストアップしてその時からずっと放置しています。全部書けるかというと難しそうなのですが少なくとも半分程度はクリアしたい。
– グラフのコミュニティー検出
– AWSの各サービスについて(DynamoDB/ personalize/ Forecast/ SageMaker など)
– opencv
– 生存分析(カプラン・マイヤー法やCOX回帰など)
– node2vec
– scikit-learn等のライブラリの最近の新機能
– 因果探索(LiNGAMなど)/因果推論
– 時系列データの異常検知や変化検知
– 状態空間モデル(カルマンフィルター)
– JavaScriptのデータ可視化関数(特にワードクラウド)
– Word Mover’s Distance などの自然言語処理の小ネタ
– jupyter lab
– J-Quants API
その他、numpy, scipy, pandas, matplotlib, tableauなどの小ネタなどが多数。

今年は今年で新ネタは出ると思いますし、更新回数が50回程度と考えるともう1年分のネタは確実に確保できそうです。あとは実際に執筆する時間とモチベーションを維持できるかという点が問題ですね。(何せ、書ける状態なのに書かなかったネタたちなので1つ1つがちょっと重い。)
できる範囲で頑張って書いていこうと思いますのでよろしくお願いします。

この他、昨年目標に入れていてあまり手をつけなかったこのブログ自体のメンテナンスもやらなければなりません。PHPやバージョンアップとか。これLightsail使ってるとすごく面倒なんですよね。
また、この記事を書いてる時点で海外から攻撃を受けているようでして、どこかの誰かが執拗にLoginを試みていてそのアクセスでCPUリソースが枯渇しているようです。
ここがそんなハッキングする価値のあるブログだとは思えなのですが、攻撃してくる人がいる以上はセキュリティ面の強化等も進めなければなりませんので、何かやったら記事にしていこうと思います。
アクセスが重くなっていることがあり、訪問者の方にはご不便をおかけします。

訪問者の方にはあまり関係ないことなのですが、Google Analyticsの旧バージョン、ユニバーサル アナリティクスが今年終了するというのもブログ関係では大きなイベントですね。
後継のGA4をしっかり学んで、継続して分析ができるようにしたいと思います。
(ただ、現時点のGA4は明らかにUAに劣るように感じているので、他の分析ツールへの乗り換えも視野に入れたい。これから改善するといいのですが。)

ブログ以外では、昨年からやっている投資ツール開発の個人プロジェクトももっと進めていきます。プログラムはほぼ動くものが揃ってきているのであとは手動で実行から自動実行への切り替えとか自動実行に伴うエラー通知の仕組み構築とかが残課題です。

以上のような方針で今年も頑張っていこうと思いますので、本年もよろしくお願いいたします。

2022年のまとめ

今日は2022年最後の月曜なので、この記事が2022年最後の記事です。1年間毎週の更新を継続できてほっとしています。

今年は年初に書いた方針通り、昨年に比べて更新頻度を半分に落としました。しかしそれでも昨年以上に多くの方に訪問していただけました。昨年も書いていますが、休日も夜間も継続的にアクセスがあり、いつも自分以外にも、どこかで技術的な調査や勉強に取り組んでいる人がいると実感できることは自分自身にとっても励みになりました。また、TwitterなどのSNSや他のブログ等で引用されていることを見かけることも多く、自分が書いた記事が誰かの役に立っていると実感でき、そのおかげでアウトプットを続けてくることができました。

まとめの記事なので、今年も1年間の振り返りをやります。本年までの累積の記事数および、年間のアクセス数は次のようになりました。

– 累計記事数 566記事 (この記事含む。昨年時点 514記事)
– 訪問ユーザー数 272,075人 (昨年実績 200,661人)
– ページビュー 476,587回 (昨年実績 348,595回)

更新数落として昨年比で+33%の訪問者数というのは本当に嬉しいです。最近では平日は1日1800人ものかたに訪問していただいています。

現行のGoogleアナリティクス(UA)が来年6月まででサービス終了してしまうので、来年はこの集計をどうするか考えないといけないですね。

今年もよく読まれた記事ランキングを見ていきましょう。以前は半年おきにやっていたのですが、今年は更新数を減らしたのもあって上期にやらなかったので1年ぶりです。
2022年1年間でのPV数によるランキングは次のようになりました。

1. Pythonで日付の加算、特にnヶ月後やn年後の日付を求める方法 (New)
2. matplotlibのグラフを高解像度で保存する (昨年1位)
3. matplotlibでグラフ枠から見た指定の位置にテキストを挿入する (昨年8位)
4. Pythonのリストをn個ずつに分割する (New)
5. matplotlibのdpiとfigsizeの正確な意味を調べてみた (New)
6. Pythonで連続した日付のリストを作る (昨年3位)
7. globでサブフォルダを含めて再帰的にファイルを探索する (New)
8. PythonでBase64エンコードとデコード (New)
9. Pandasで欠損のある列の文字列型の数値を数値型に変換する (New)
10. PythonでMeCabを動かそうとしたらmecabrc ファイルが無いというエラーが出たので原因を調べた (New)

今年新規にランクインした記事が7記事となりました。matplotlibのグラフの解像度を設定する話は長いことこのブログの一番人気だったのですがついに入れ替わりましたね。(データサイエンス要素は薄いのでこれが人気というのは若干複雑な気持ちです。)
ただこの中で、今年書いた記事って10位のmecabrcの記事だけのような。まぁ、古い記事が強いというのは長期にわたってニーズがある記事を書けているということでもあるので、今年書いた記事たちも来年以降に期待しましょう。

1年間の終わりなので、年初に立てた方針の振り返りもやっておきます。
参考: 2022年のご挨拶と今年の方針

まず、アウトプットは減らしてDSに限らず幅広い範囲のインプットを重視したいという話については、ある程度達成できたが、思っていたのとは違う形になったというのが正直なところです。データ分析の分野では、有償の講座受講などを増やし今までと違った形での学習機会を得ることができました。また、データサイエンス系の書籍の読書量は減らしたとはいえゼロにはしておらず、一定量の継続もできています。

また、仕事に関係ないところでもいつか読みたいと思っていた漫画のシリーズをいくつも読破できましたし、都内各地のいつか行ってみたいと思っていたところへ観光に行くこともできました。特に、上野の国立科学博物館は行ってよかったですね。次は特別展も見てみたいです。

若干想定外だったのは、今年1年間、Youtubeの視聴時間が急激に伸びたことです。人材業界で働いているので転職や就職などのキャリア関係のチャンネルをよく見ました。他にもエンジニア教育、数学を中心とした科学など幅広く見ています。近年Youtuberが増えて配信してる人は収益化が大変だという話を耳にしますが、視聴者としては良質なコンテンツも増えており大変勉強になります。書籍に比べてダラダラ見ることもできるのもいいですね。これは年初は全く想定してなかった変化でしたが良い結果になったかなと思います。

一方で、Youtubeの視聴時間の増加の割をくった形になったのが、データサイエンス以外の分野のビジネス書を読む時間で、これは計画の半分くらいしか進まなかったなと思います。来年改めて取り組みたいです。

このブログ自体のメンテナスをやるぞ、という目標もあったのですがこれが全然進みませんでした。リンクやカテゴリの見直しなどはまだいいとして、PHPのバージョンが古いとか流石に放置しておくのは良くない問題も出ているのでこれは来年対応したいです。

目標には入っていませんでしたが、今年やった取り組みとしてGithubにプライベートリポジトリを立てて、自分一人のプロジェクトを始めたというのもあります。実は17年ほど投資をやっていてExcel VBAで自作したツール群を使っていたのですが、これらをAWSとPythonで書き直していきました。いつかAWSに移行したいと7年くらい前から思ってたのになかなか着手できなかったプロジェクトを進めることができたのは自分にとっては大きかったです。このプロジェクトはこれからも続けていきたいですね。

来年のこのブログをどうするかは、仕事以外も含めて一通り目標を立ててその中でしっかり決めていきたいと思います。来年は2日かその翌週9日かが最初の記事になると思いますが、それまでに方針固めます。

それではみなさま、今年も1年間ありがとうございました。また来年もよろしくお願いいたします。

2022年のご挨拶と今年の方針

新年明けましておめでとうございます。本年もよろしくお願いします。

さて、今年のこのブログの更新方針について決めたのでまとめておきます。
昨年末の記事でも少し頭出ししていましたが、ブログに限らず今年の計画や目標について考え、今年1年はアウトプットよりもインプットを重視した年にしようと決めました。また、その内容もデータサイエンス関連に限らず幅広く吸収していく年にしたいです。

アウトプットの時間は減らしたいのとインプット内容にこのブログ記事につながるようなテーマの物が減るということで、このブログの更新ペースは落とします。昨年の半分くらいにして週1回更新、年間50記事程度を目標にゆっくりやっていこうと思います。もし書きたいことがありすぎて困るようなことになったらまたその時にペースを見直すかもしれませんが。

僕はもともと読書が好きで色々なジャンルの本を幅広く読んでいました。その後、2017年に転職してデータサイエンティストになってからこの5年ほどの期間、まずは仕事で使うデータ分析のスキルを優先しようということで読む本がほとんど広い意味でのデータサイエンス関連や、ドメイン知識としての人材業界関連の本ばかりになっていました。特にそれが不満というわけでもなく、どんどん新しい知識が身に付き、できることが増えていくことにやりがいも感じていました。この分野は本当に学ぶことが多く、この先も興味が尽きることはなさそうです。ただその一方で、趣味に関する本とか書店でたまたま見かけて興味を持った本とか話題のベストセラー等々の他の読みたい本を読むのが完全に後回しになってきたのも事実です。

今年もデータ分析の勉強は継続はしますし、今の時点で絶対読みたいと思ってる本はそこそこあるのですがが、それらを読むのは月に1〜2冊程度に抑えようと思ってます。そして浮いた時間はまた昔みたいに、仕事や実用性を無視して興味を持ったものを何でも読んでいく時間にします。

その他、流石に3年も運用しているとこのブログにも色々改善したい点あったり、内容が古くなってしまった記事などもあります。新規の記事を書く時間を減らした範囲内で、過去記事の見直しなどを含めたメンテナンスにも細々と着手しようと思います。例えば「プログラミング」っていう非常に雑なカテゴリに多くの記事が集中してしまっているのでこの辺の見直しもしたいです。

以上のような方針のためこのブログの更新は昨年に比べてゆっくりになりますが、本年もよろしくお願いいたします。

2021年のまとめ

2021年の最後の投稿になります。

本年も訪問者の皆様には大変お世話になりました。書いた記事が多くの方に読んでいただけたということはもちろんですが、土日祝日なども平日より少ないとはいえ多くのアクセスがあり、休日も技術的な調べ物をしている熱心な人たちがいると実感できることは自分が学習を続けていく上でも大きな励みになりました。

今年も1年間の振り返りをやっていきたいと思います。本年までの累積の記事数および、年間のアクセス数は次のようになりました。
– 累計記事数 514記事 (この記事含む。昨年時点 409記事)
– 訪問ユーザー数 200,661人 (昨年実績 146,674人)
– ページビュー 348,595回 (昨年実績 258,698回)

年間100記事更新の目標を無事に達成でき、それに伴って訪問者の数も増えているので達成感を感じています。

とはいえ、多くのpvを集めているのは古い記事が多く、今年特に力を入れて書いたMeCabのアルゴリズムの話や、AWSのAI関連サービスの話、トレジャーデータの小ネタなどはあまり読まれていないようです。テーマ選びなのか僕の文章力なのか、なんらかの課題はあるように感じています。

さて、恒例のよく読まれた記事ランキングを見ていきましょう。
今回は2021年1年間でのPV数によるランキングです。

  1. matplotlibのグラフを高解像度で保存する (昨年1位)
  2. ネットワークグラフの中心性 (New)
  3. Pythonで連続した日付のリストを作る (New)
  4. pyenvで作成した環境を消す (New)
  5. TensorflowやKerasでJupyterカーネルが落ちるようになってしまった場合の対応 (New)
  6. numpyのpercentile関数の仕様を確認する (昨年4位)
  7. INSERT文でWITH句を使う (昨年7位)
  8. matplotlibでグラフ枠から見た指定の位置にテキストを挿入する (New)
  9. kerasのto_categoricalを使ってみる (昨年3位)
  10. Pythonで多変量正規分布に従う乱数を生成する (昨年10位)

Googleアナリティクスで確認した時、1位と10位が昨年と同じなので今年もあまり変わり映えしないなという印象を持っていました。しかし、改めて昨年のランキングと比較してみると昨年ランクインしなかった記事が5記事も入っており意外と顔ぶれ変わってましたね。

このブログもこれで開設から丸三年になります。流石にネタ切れを感じる日もあるので来年の運用をどうしようかと考えています。(とはいえ、ブログネタのストックは今時点で40個程度はあるので本当の意味ではネタ切れしてないのですが、書きたいけどなかなか筆が進まないものやタイミングを逃した感があるのも多く難しいところです。)

来年も技術的なスキルアップを目指した学習はもちろん続けていきますし、仕事の中での疑問や課題感からネタが出てくることもあると思うので、ブログの更新自体は続けていきます。ただ、技術関連以外のインプットにももっと力を入れていきたいですし、休日の時間を今以上に読書や講座受講などに使いたいので、更新頻度は見直したほうがいいかもとは思っています。

この年末年始で来年をどう過ごすかを考えて、その中でブログの運用方針も決めたいと思います。

それではみなさん、今年も1年間ありがとうございました。良いお年を。

勤務先のテックブログの宣伝

現在、週2回のペースでこの(私用の)ブログを更新していますが、実はここ以外にも勤務先であるオープンワーク社のテックブログにも記事を投稿しています。
投稿頻度はこのブログに比べて非常に低く、僕はまだ4記事しか投稿していないのですが、
その分、1記事1記事は丁寧に時間をかけて書いてきました。

こちらのブログには書いてこなかった、実際に仕事でやっている内容と密接した記事も書いていますので、
もしご興味のあるかたがいらっしゃいましたらこれらの記事も読んでいただけると嬉しいです。

僕が投稿した記事は以下の4記事になります(新しい順。)

OpenWorkの年齢別年収機能の裏側
ABテストの目的と分析時にアナリストが考えていること
企業の”採用力”を指標化しようとして失敗した話
オープンワークのアナリストが分析していること

次の更新は未定ですが、また新しい記事を更新したらこちらのブログでも紹介させていただこうと思います。

2021年上半期(1月~6月)によく読まれた記事

2021年もあっという間に半分が終わってしまいました。
ここで恒例(?)のよく読まれた記事ランキングを掲載したいと思います。

参考ですが、昨年1年間のよく読まれた記事ランキングはこちらです。
参考: 2020年のまとめ

では早速発表していきます。
集計期間は2021年1月から6月まで。pvでソートしています。

  1. matplotlibのグラフを高解像度で保存する
  2. ネットワークグラフの中心性
  3. pyenvで作成した環境を消す
  4. TensorflowやKerasでJupyterカーネルが落ちるようになってしまった場合の対応
  5. Pythonで連続した日付のリストを作る
  6. numpyのpercentile関数の仕様を確認する
  7. matplotlibのデフォルトのフォントを変更する
  8. INSERT文でWITH句を使う
  9. kerasのto_categoricalを使ってみる
  10. scipyで階層的クラスタリング

相変わらず、プログラミングのちょっとした小ネタのような記事が人気を集めていますね。
このブログ自体そういう記事が多いので、やむを得ないことですが。

データサイエンティストのブログらしい記事としては、
今回ネットワークグラフの中心性の記事が2位にランクインしました。
これを書いたのは昨年なのですが、当時ネットワーク解析について色々勉強して書いた記事だったので、
ニーズがあって嬉しいです。

2021年のご挨拶と今年の方針

新年明けましておめでとうございます。本年もよろしくお願いします。

年末年始の間、このブログの目標をどうしようかなと考えていたのですが、
一旦は昨年と同じペースを維持することを目指したいと思います。
と言うことで、今年も年間100記事の更新を目指します。
随分前からネタ切れ感もあるのですが、
100記事の目標があればネタ探しを兼ねたインプットにも力を入れられると思います。

気合を入れて書いた記事よりもちょっとした小ネタのような記事の方がニーズがあることもはっきりしてきたことですし、
何か調べたら何か書く、くらいのテンションで今年もやっていきたです。

また、技術記事以外の記事も増やしたい(と昨年も言ってたのに結局書かなかった)ので、
今年こそポエム記事も書いていきたいと思います。

2020年のまとめ

今年も一年間お世話になりました。
多くの方に訪問いただけていたのでモチベーションを失わずにブログ更新を続けることができました。

2020年最後の投稿になりますので、今年1年間の振り返りをしたいと思います。

まず基本的なデータ。記事数はトータル、残り二つは2020年1年間の実績です。

– 記事数 409記事 (この記事含む)
– 訪問ユーザー数 146,674人
– ページビュー 258,698回

2019年と比べて、どの数値も大きく伸びていることがわかります。
更新頻度こそ2019年から落としていますが、更新を続けることによって(結果的に記事にしなかった内容も含めて)多くの学びを得ることができた1年間でした。

さて、恒例のよく読まれた記事ランキングをみていきましょう。
今回は2020年1年間でのPV数によるランキングです。

  1. matplotlibのグラフを高解像度で保存する
  2. macにgraphvizをインストールする
  3. kerasのto_categoricalを使ってみる
  4. numpyのpercentile関数の仕様を確認する
  5. scipyで階層的クラスタリング
  6. DataFrameを特定の列の値によって分割する
  7. INSERT文でWITH句を使う
  8. matplotlibのデフォルトのフォントを変更する
  9. pythonで累積和
  10. Pythonで多変量正規分布に従う乱数を生成する

あれ、今年書いた記事があんまりランクインしてないような。
基本的な内容の記事がニーズが高い傾向にはあるようですね。

僕自身の備忘録的な記事も多く、これは本当に訪問される皆さんの役に立ってるのかと心配になることも多いのですが、
アクセスを見る限りではちゃんとニーズがあったようで嬉しいです。
無理して内容のレベルを上げるよりも今の調子での更新が良いのかもしれませんね。

さて、年初に立てた目標の方も振り返ってみると、更新回数以外の目標はさっぱりでした。
参考: 2020年のご挨拶と今年の目標
Kaggleはそのうち挑戦しようと思いつつ全然やってないし、
技術記事以外の記事もさっぱり書いていません。
技術記事だけで100記事書けたと言うことでもあるので、それが悪いわけではないのですが当初思ってたのとは方向がずれたかなと思います。

来年どのくらい記事を書くかとか、その内容とかはブログ以外の目標やプランともすり合わせて計画を立てて、
年初の記事で方針発表させていただけたらと思います。

今年も1年間ありがとうございました。良いお年を。

2020年上半期(1月~6月)によく読まれた記事

早いもので2020年が半分終わってしまいました。
今年はブログ更新頻度を落としているのもあり、四半期でのランキング発表をやめているので、
この辺で半年間に読まれた記事のランキングを出したいと思います。

参考ですが、昨年1年間のランキングはこちらです。
参考: 2019年のまとめ

では早速ランキング発表です。
集計期間は 2020年1月から6月まで。pvで並べています。

  1. matplotlibのグラフを高解像度で保存する
  2. macにgraphvizをインストールする
  3. pythonで累積和
  4. DataFrameを特定の列の値によって分割する
  5. INSERT文でWITH句を使う
  6. kerasのto_categoricalを使ってみる
  7. numpyのpercentile関数の仕様を確認する
  8. scipyで階層的クラスタリング
  9. matplotlibのデフォルトのフォントを変更する
  10. graphvizで決定木を可視化

データサイエンスというより、プログラミングのちょっとしたTips的な記事の方がよくpvを集めていますね。
今年はネットワーク解析/グラフ理論の記事も頑張って書いたので今後はそれらのランクインも期待したいです。

2020年のご挨拶と今年の目標

新年明けましておめでとうございます。本年もよろしくお願いします。

年明け最初の投稿なので、本年の目標をまとめておきたいと思います。
細かい目標は他にも多々ありますが、データサイエンティストとしてのスキルアップの観点では、
次の二つを重点目標として、取り組みます。

1. kaggleのコンペに挑戦する

一つ目の目標はこれです。今年はブログ以外の技術アウトプットとして、kaggleに挑戦したいと思っています。
データサイエンティストではありますが、業務では機械学習以外の仕事が多く、
ぼーっとしているとなかなか技術が伸びていきません。
そのままだと稀に機械学習のタスクが発生した時に十分な成果が出せず非常に苦労します。
今は東京大学の通信講座であるDL4USを受講していますが、もうまもなく最終課題も終わるので、
その次の挑戦としてコンペに参加していこうと思います。
もちろんメダルを目指したいですが、まずはコンペに取り組む習慣づくりからはじめて、
常に何かしらのコンペに取り組んでいる状態を維持します。

2. ブログ記事100件投稿

昨年は306記事投稿していますが、予告通りペースを落とします。
ただ、それでも投稿自体は継続し、1週間に2記事のペースで年間100記事を目指します。
内容も見直していく予定です。
いきなりキャリア系のポエム記事ばかりにするつもりはなく、今まで通りのノリの投稿も続けますが、
キャリア系の記事でも誰かの参考になることがあると思うので、徐々に発信の幅を広げていきたいです。
特に30歳を超えて未経験の状態からいきなりデータサイエンティストに転職してきた頃の話とか、
その後、分析チームのマネジメントや採用業務等も担当するようになっているので、
何かしら誰かの参考になる話もあるかと思います。