当事者になって分かったストックオプションに関してあまり理解されていないと思ったこと

はじめに

今回の記事はストックオプションに関するものです。全く技術的な要素が無く普段の投稿と違うテイストの記事ですが、このブログの訪問者にはベンチャー企業に勤めてるかたが多いんじゃないか、つまり訪問者の方にとって何かしら有益な情報になるのではないかと思ってここに書きます。

個人的な話ですが、僕は株式に限っても10年以上トレードをやっており、さらに株式以外のFX等を含めると18年近くトレーダーをやっています。さらに初めてベンチャーに転職した頃にストックオプションとは?といった趣旨のWeb記事などをよく読んでいたのでそこそこ理解しているつもりでいました。しかしそれでも実際に前職でストックオプションを付与され無事に会社がIPOして行使できた過程の中で初めて理解したことがいくつかあったのでそれをまとめます。また、ついでに一般的なSOの説明記事等で取り上げられていない、特に新卒就職からずっとベンチャーで働いてる人たちにはあまり知られてないんじゃないかなって思ったことも書いていきます。

逆に、そもそもストックオプションとは何かとか上場とは何かみたいな話は書きませんのでその辺は世にたくさんある他の記事を参照してください。

免責事項

記事の内容は正確なものになるように努めますが、自分はストックオプションの専門家ではなく、1社で行使を経験しただけなのでこの記事の内容に基づいた判断や行動は自己責任でお願いします。本編の最初に書きますがストックオプションにはざっくり分けても多くの種類があり、各企業や主幹事証券会社の設計によって事情が変わりえます。疑問に思ったことはご自身の勤め先の担当者に確認してください。

参考にこの記事を書いている僕が経験したSOは無償SOで税制適格SOです。その他の種類のSOについては未経験なので、この記事では言及しません。また、主幹証券会社は野村證券でした。証券会社による差もあると思いますので注意してください。

それでは以下本文です。

1. ストックオプションには複数の種類があり、会社ごとにも細かい違いがある

これは比較的よく知られていることですね。最近信託SOというのも話題になっていますが、一口にストックオプションと言っても多くの種類が存在します。有償SOと無償SOや、税制適格SOとそうでないもの、信託型SOとそうでないものなど、ざっくり分けても複数種類があります。

さらに細かく言えば、ストックオプションは会社ごとに設計されるものであり、行使条件等が会社によって細々と違います。例えば在籍年数が一定を越えないと全部は行使できないとか退職後の行使を認めるかどうかとかの規約が会社によって違います。同じ会社であっても個人個人でロックアップの有無などが変わったりもします。

免責事項に書いたことの繰り返しですがご自身が付与されたSOの設計がどうなっているのかはよく確認する必要があります。

また、これらの事情から個々の会社ごとの差異を除いたSOの一般論として語れる内容には限界があり、世の中のSOに関する各記事に説明不十分な点が出てしまうのも仕方ないと思いました。

2. ストックオプションの権利行使と取得した株式の売却はそれぞれ別の手続き

世の中のWeb記事のざっくりとした解説では「ストックオプションとは決められたか価格で株を買う権利であり、その価格より株価が高い状態で行使すると差額分を利益として得られる。」と言った解説がされています。要するに「行使価格100円のSOを株価300円の時に行使したら一株当たり200円の利益を得られる」と言った趣旨のことが書いてあります。

これで僕は「SOを行使してその株を売る」という1個の手続きが存在するのかな、と勘違いしていました。要するに「SO行使します」と言ったら(行使価格と時価の差分)*(株数)の行使益みたいなものがポンと振り込まれるのかと思っていました。

実際は、行使は行使、売却は売却で別々の手続きです。まずSOを行使して株を買って、その後保有し続けるか売却するかという話になります。

3. ストックオプションを行使するときはお金を払う

2.の続きですね。行使と売却が同時にできず、まずSOを行使するだけという手続きがあるので当然の話ですが、株を買う権利を行使するならその購入費用を支払わないといけません。

自分が100万円分のSOを行使したいなら100万円払う必要がありますし、1000万円分のSOを行使したいなら1000万円、1億円分なら1億円を指定口座に振り込む必要があります。

これ読んで心配になった人もいるかと思いますが、SOの一部を行使して、その株を売って、それで得た資金でまたSOを行使して、と繰り返すことも可能なので自己資金がなくてSOが無駄になるってことはあまりないと思います。ただ、後に書きますが、株をなかなか売れない人もいるのでこの手段は全員がスムーズに使えるわけでは無いのでその点は注意です。

4. 税制適格ストックオプションは年間の行使額に上限がある

税制適格ストックオプションは税率が優遇される代わりに色々制限がつきますが、その中で社員が特に気にしないといけないのがこの点です。2023年時点では税制適格ストックオプションの年間の行使価格の上限が1200万円となっています。

もう少し細かくいうと、租税特別措置法 第29条の2というのがあって、「二 当該新株予約権の行使に係る権利行使価額の年間の合計額が、1200万円を超えないこと。」と定められています。

ただ、これは税制上の優遇を受けられる法律上の上限行使額が年間1200万ってことで、各企業ごとにうちは上限x万円までしか行使できないとか別途規約があったり、税制上の優遇がされなくていいならいくらでも行使していいとか個々に規定がある可能性もあるのでよく確認してください。

これが大きく影響するのは多額のSOを条件に招致される役員さん等でしょうね。

5. ストックオプションの行使には証券会社に専用口座が必要

これは主幹証券会社によって違うかもしれません。僕が経験したのが野村證券だけなのでそれを例に書きます。

実は、新卒で入った会社を辞める時に持株会の株を売るために野村證券の口座を作りました。その後は手数料が高いので使わず、解約手続きも電話が繋がらずできなかったのでただ放置していた口座でした。SOを付与された当時の勤め先の主幹証券会社が野村證券になった時にじゃあこの口座を使えるかと思っていたのですが、ストックオプションの取引にはストックオプション専用講座が必要ということになり野村證券に改めてもう一口座開設の手続きが必要でした。

一般的に自分が複数の証券会社に口座を持っている場合、口座間で株式の移管が行えるものなのですが、税制適格ストックオプションの税制上の優遇を受けるためには他の証券会社に移さず、この専用講座で売却する必要があります。

野村證券なので売却手数料は馬鹿みたいに高かったです。普段ネット証券を使っている方は驚くと思います。ただ逆にSOを行使して株式を購入する時は手数料はなく、純粋に行使価格と株数を掛けた金額をちょうどが支払い金額でした。この辺も主幹証券会社によって事情が変わると思います。

6. ストックオプションの行使には時間がかかる

これはタイトルそのままです。会社や主幹証券会社によって日数は少々変わると思いますが。SOを行使したい旨を会社に伝えて申請書をもらって書いて提出して承認してもらって行使資金の振込先口座を教えてもらってお金を振り込んでそこから手続きが進んで、自分の証券口座に株式が移されるという手順を順に踏んでいくことになり、1個1個の手順が数日がかりになります。

通常の株の購入みたいに今日買いたいと思ってもすぐできるものでは無いということです。

7. ストックオプションを行使して得た株は自由に売れるわけでは無い

これはストックオプションに限った話ではなく、上場企業社員の一般論です。通常は、上場企業の社員は自分が勤める会社の株を自由に売り買いできず、会社ごとに何かしらの規約があります。

また、IPO固有の事情としてはロックアップというものがあって、一部の大株主や役員は新規上場から一定期間該当株式の売買ができない取り決めになります。

僕はこのロックアップの対象外だったので上場直後から複数の知人から「ロックアップついてなかったから、もういつでも売れるんじゃ無いですか?売りました?」と言った趣旨のことを言われました。しかし、ロックアップがなかったからと言って自由には売れません。

これは本当に会社ごとに規約が違うので自社に確認するべきですが、売買できる期間が決まっていて売買を希望するなら事前に申請が必要とかそういう種類のルールがあると思います。非上場企業の場合、現時点でルールがなかったとしてもおそらくIPOする時にこの種のルールが作られると思います。

また、退職したとしても一定期間はその企業の関係者扱いになります。これが法律で決まってるのか各企業の自主的な規制なのかと言った詳しいことは知りませんが、自分が新卒時就職した上場企業も退職後1年間は証券口座上で関係者扱いだったのでおそらく一般的なルールなのでしょう。

8. 実はストックオプションはノーリスクでは無い

ここまでに買いた2, 6, 7 の組み合わせから導かれる結論がこれです。なんか世の中には株価が下がったらストックオプションを行使しなければいいだけだからノーリスクだという主張をする記事があります。実は僕はそれを信じていたので2.の行使と売却が同時にできるのではという勘違いをしていました。

ストックオプションの行使と株式の売却が別の手続きで、それぞれがタイムリーに行えない以上、ストックオプションを行使してから売るまでに株価が行使価格を下回って損をするリスクはあります。また、行使だけに限ってももう取り消しできないという段階で株価が暴落し、市場価格より高い金額で購入することになるリスクはあります。

9. ストックオプションの保有状況はIPO時に公表される

実は当事者になって一番びっくりしたのがこれです。日本取引所グループのサイトに新規上場企業の情報がまとまったページがあります。ここのPDFを見ていくと各企業の株主の情報が載っているのですが、現物株を持ってる人だけでなくストックオプションの保有者も公開されます。公開されるのは氏名と住所(市や区まで)と株数ですね。

参考: 新規上場会社情報 | 日本取引所グループ

7. で知人にばれた元ネタはこれと、これを転載したIPO情報サイトです。

10. ストックオプション専用口座で発生する利益にかかる税金は源泉徴収では無い

これはもしかしたら証券会社によって違うかもしれません。少なくとも僕が使っているところでは特定口座と扱いが異なり、売却益からはまだ税金が取られていないので時期が来たら確定申告して自分で納税することになります。これ自体は今後やることなのでこれ以上語れることはありません。

11. なかなか株を売れない人もいるらしい

これは自分はそうではなかったので伝聞だけの話です。会社の中でも特に要職にある人はそう気軽に株式を売却できないらしいですね。こうなると3. で書いたテクニックのSOを行使してその株の売却資金で次のSOを行使するって手段が使えなくなります。

また、7. の上場企業の従業員は自由に売買できないって話にもつながりますが、インサイダー情報を知ってる人という扱いになると売買を申請しても却下される可能性があるとも聞きました。

これは会社だけでなく個人個人によって状況が大きく異なる点なので各自がよく確認してください。

12. 売却時期の判断は難しい

これはただの感想。実際難しいです。個人的にはちょっとしくじったと思ってますがもう仕方ないですね。個人投資家としてのキャリアの中でもこんな大きなポジションを持ったことはなかったですし、さらに自分は新規上場株を扱ってこなかったので、これまでの取引経験が活かせたような実感はありませんでした。

まとめ

株取引をやっているので自分は詳しい方だと思っていましたが、それでもストックオプションに関して誤解していることが複数ありました。人生でそう何度も経験することではなく、当事者のほとんどが情報不足で直面するわりにインパクトが大きいことなので、この記事が訪問者の方々のキャリアの中でなにかしらお役に立てれば幸いです。

免責事項の中で書いたことの繰り返しになりますが僕自身も1回経験しただけで、ストックオプションは他にも種類があるため、他の種類のストックオプションにはそれはそれで固有の事情があると思います。ベンチャーで働く皆様におかれましては各社の制度をよく理解し良いベンチャーライフをお送りください。

Jupyter(ipython)のマジックコマンドを自作する

Jupyterには便利なマジックコマンド(%や%%を付けて呼び出すアレです)がたくさんありますが、あれを自作する方法を紹介します。

ドキュメントは IPythonのドキュメントのこちらを参照します。
参考: Defining custom magics — IPython 8.14.0 documentation

簡単な方法は、register_line_magic, register_cell_magic, register_line_cell_magic の3種のデコレーターをマジックコマンドとして使いたい関数につけることです。

register_line_magicはその行の文字列を格納する引数を1個だけ、register_cell_magicとregister_line_cell_magicは、マジックコマンドと同じ行の文字列を格納する引数と、セル内の文字列を格納する引数の2個をもちます。

ざっと、受け取った文字列をprintするだけのコマンドを作ってみましょう。3種類それぞれのサンプルです。

from IPython.core.magic import register_line_magic
from IPython.core.magic import register_cell_magic
from IPython.core.magic import register_line_cell_magic


@register_line_magic
def line_magic(line):
    print(line)


@register_cell_magic
def cell_magic(line, cell):
    print(f"line: {line}")
    print(f"cell:\n{cell}")


@register_line_cell_magic
def line_cell_magic(line, cell=None):
    print(f"line: {line}")
    if cell:
        print(f"cell:\n{cell}")

順番に使ってみます。

%line_magic ラインマジックテスト
print()
# 以下出力
# ラインマジックテスト
%%cell_magic セルマジックと同じ行のテキスト
セルマジック内のテキスト
その2行目

# 以下出力。
"""
line: セルマジックと同じ行のテキスト
cell:
セルマジック内のテキスト
その2行目
"""
%line_cell_magic ラインマジックとして動作させた場合

# 以下出力
# line: ラインマジックとして動作させた場合
%%line_cell_magic セルマジックとして動作させた場合。
セルの中身

# 以下出力
"""
line: セルマジックとして動作させた場合。
cell:
セルの中身
"""

めっちゃ簡単ですね。

最初のマジックコマンドを定義したコードをPythonファイルとして保存して、import可能なディレクトリに置いておくと、インポートして使うこともできる様になります。例えば、 my_magic.py というファイル名で保存しておけば次の様に使えます。

import my_magic


%line_magic 読み込んだモジュールのマジックコマンドが使える
# 読み込んだモジュールのマジックコマンドが使える

my_magic.line_magic("普通の関数としても呼び出せる")
# 普通の関数としても呼び出せる

さて、通常マジックコマンドをライブラリ等から読み込んで使う場合、この様にimport するのではなく、%load_ext して使うことが多いと思います。これは、先ほどあげたドキュメントのページでベストプラクティスとされているのがその方式だからです。@register_* のデコレーターで直接登録する上記の方法は推奨されてないんですね。

その代わりにどうするかというと、 load_ipython_extension というメソッドを持つpythonファイルを作り、このメソッドの中で定義した関数たちを register_magic_function でマジックコマンドへ登録していきます。

引数は順に、登録する関数本体、コマンドの種類(省略したら’line’)、マジックコマンドとして呼び出す時の名前(省略したら元の関数名)です。

例えば、 my_ext.py というファイルを作りその中を次の様にします。

def load_ipython_extension(ipython):
    ipython.register_magic_function(
        line,
        magic_kind='line',
        magic_name='line_magic'
    )

    ipython.register_magic_function(
        cell,
        magic_kind='cell',
        magic_name='cell_magic'
    )

    ipython.register_magic_function(
        line_cell,
        magic_kind='line_cell',
        magic_name='line_cell_magic'
    )


def line(line):
    print(line)


def cell(line, cell):
    print(f"line: {line}")
    print(f"cell:\n{cell}")


def line_cell(line, cell=None):
    print(f"line: {line}")
    if cell:
        print(f"cell:\n{cell}")

各メソッドそれぞれにはデコレーターはつきません。

この様なファイルを用意すると、load_ext で読み込んだ時に、load_ipython_extension が実行されて、その中でマジックコマンドの登録が行われます。結果、次の様に使えます。

%load_ext my_ext


%line_magic ロードしたマジックコマンドが使えた
# ロードしたマジックコマンドが使えた

先ほどのimportした場合との挙動の違いとしては、これは明示的にマジックコマンドの読み込みだけを行っているので、各メソッドはインポートはされておらず、個々のメソッドの、line, cell, line_cell は名前空間に登録されてないということです。(マジックコマンドとして登録された、line_magic, cell_magic, line_cell_magic の名前でなら通常のメソッドと同じ様に使うことも可能です)

以上が簡単なマジックコマンドの作り方になります。

lru_cacheによるメモ化をクラスのメソッドに使うとメモリリークを引き起こすことがある

もう結構前なのですが、メモ化というテクニックを紹介しました。
参考: pythonの関数をメモ化する

これは@functools.lru_cacheというデコレーターを使って、関数の戻り値を記録しておいて何度も同じ関数を実行するコストを削減するのでしたね。計算コストが削減される代わりに、結果を保存しておく分メモリを消費します。

僕はこれを結構使ってたのですが、最近、これをクラスのメソッドに対して利用しているとメモリリークを引き起こすことがあるという気になる情報を得ました。ブログで紹介しちゃった責任もあるので、今回はその問題について調べました。

この問題は何箇所かで指摘されていて、一例を挙げるとこのissueなどがあります。
参考: functools.lru_cache keeps objects alive forever · Issue #64058 · python/cpython

こっちのYoutubeでも話されていますね。
参考: don’t lru_cache methods! (intermediate) anthony explains #382 – YouTube

具体的に説明していくために超単純なクラスを作って実験していきましょう。
まず、そのまま返すメソッドを持ってるだけのシンプルクラスを作ります。そして、このクラスがメモリから解放されたことを確認できる様に、デストラクターが呼び出されたらメッセージを表示する様にしておきます。これをインスタンス化して関数を1回使って、delで破棄します。

class sample1:
    def __init__(self, name):
        self.name = name

    def __del__(self):
        print(f"インスタンス: {self.name} を破棄しました。")

    def identity(self, x):
        return x


a = sample1("a")
print(a.identity(5))
# 5
del a
# インスタンス: a を破棄しました。

デストラクターがちゃんと呼び出されていますね。

これが、メソッドがメモ化されていたらどうなるのかやってみます。

from functools import lru_cache


class sample2:
    def __init__(self, name):
        self.name = name

    def __del__(self):
        print(f"インスタンス: {self.name} を破棄しました。")

    @lru_cache(maxsize=None)
    def identity(self, x):
        return x


b = sample2("b")
print(b.identity(5))
# 5
del b
# 何も表示されない。

今度はガベージコレクターが動きませんでしたね。これは、変数bを削除したことによって変数bからの参照は消えたのですが、メソッドのidentity の一つ目の引数がそのインスタンス自体をとっていて、これを含めてキャッシュしているので、キャッシュがインスタンス自身への参照を保存しているためガベージコレクションの対象にならなかったのです。そのため、インスタンスbが確保していたメモリは解放されず、占拠されたままになります。

ちなみに、循環参照の状態なので、明示的にガベージコレクターを動かすと消えます。

import gc


gc.collect()
# インスタンス: b を破棄しました。

ちなみに、最初のキャッシュが発生した時に循環参照が生まれているのでメモ化したメソッドを一回も使わなかったら普通に消えます。

c = sample2("c")
del c
# インスタンス: c を破棄しました。

以上の様な問題があるので、クラスメソッドで lru_casheを使う時は気をつけて使うことをお勧めします。

とはいえ、最近のMacBookくらいのメモリ量であれば、インスタンスが何個か過剰に残ったとしてそれでメモリが枯渇する様なことはないんじゃないかなとも思います。仮にメモリがピンチになる様な使い方をしていたとしても、maxsizeを適切に設定してメモリサイズを押さえておくとか、明示的にgc/collect()動かすとかの対応が取れるかと。

僕としては、メモリが解放されないことよりも、デストラクターが動かなくてそこに仕込んだ後始末形の処理が動かないのが気になりましたね。

Pythonのloggingモジュールの使い方

これもずっと前に書いたつもりでいたら書いてなかったので書きます。プログラムを開発していると、ログを実装することがあります。Jupyterでインタラクティブにやる時はprintで十分なのですが、機械学習モデルや何かしらのロジックを実装して本番環境で稼働させるなら何かしらログが残る仕組みは必須です。そして僕は横着してJupyterのファイルをそのままバッチとして使い始めたりもするのでJupyterでもロギングを使うことがあります。

その様な時、Pythonにはloggingモジュールという大変便利なモジュールが標準で用意されています。
参考: logging — Python 用ロギング機能 — Python 3.11.4 ドキュメント

このloggingライブラについては必ずドキュメントを読んでから使うことをお勧めします。というのも、このモジュールにはアンチパターンが多く、例えばルートロガーをそのまま使うなどの、適当に書いたらそう書いちゃう実装がリスクが大きいからです。

最近はドキュメントでも上の方で、logging.getLogger(name)を使えってちゃんと書かれる様になりましたね。それでは、使い方書いていきます。

getLoggerを用いたロガーの取得

loggingモジュールでは最初にロガーを取得します。これをやることでそのモジュールごとに独立したロガーが生成され、設定をいじってもシステム全体の他のロガーの設定に影響が出ない様にできます。ロガーには名前をつけるのですが、__name__という変数を使うと自動的にモジュール名が入るので良いでしょう。スクリプト本体の場合は__name__の値は__main__になります。

import logging


logger = logging.getLogger(__name__)

これでloggerが生成されましたが、初めて使った人がそのまま利用しようとすると、デバッグログやinfoのログが出ないことに気づくと思います。

# debugと info は何も出力しない。
logger.debug("デバック")
logger.info("インフォ")

# warning/error/critical は標準エラー出力に出力
logger.warning("ワーニング")
# WARNING:__main__:ワーニング
logger.error("エラー")
# ERROR:__main__:エラー
logger.critical("クリティカル")
# CRITICAL:__main__:クリティカル

ざっくり言うと初期設定ではこういう動きに設定されているということです。
もっと詳しく説明すると、この時点ではloggerにはログの出力先(これをhandlerという)が設定されておらず、この様な場合は警告以上の重要度のメッセージを「lastResort」っていう最終手段のハンドラが出力してくれているという状況になっています。ハンドラが設定されてなくても重要なメッセージはユーザーに伝えようと言うモジュールの思いやりです。

さて、上記のままではせっかくのデバッグメッセージ等が揉み消されるし出力も簡素すぎるのでここから色々設定していきます。

ハンドラーの作成と追加

まず、先ほどの例では出力先を制御しているハンドラが設定されていないので、こちらの追加方法を説明します。

これはファイルに書き出したい場合や標準エラー出力に出力したい場合などに備えて複数のクラスがあるのでそれをインスタンス化し、 addHandlerでロガーに設定します。複数設定も可能です。

ハンドラたちのドキュメントはこちら。次の様なイメージで設定します。


参考: logging.handlers — ロギングハンドラ — Python 3.11.4 ドキュメント

# ファイルに書き出すハンドラ
file_handler = logging.FileHandler('{ファイルパス}')
logger.addHandler(file_handler)

# 標準エラー出力に書き出すハンドラ
stream_handler = logging.StreamHandler()
logger.addHandler(stream_handler)

ログレベルの設定

ログにはログレベルという概念があって、ロガーと、出力先であるハンドラそれぞれがどのレベル以上のログを出力するかという持っています。両方を満たさなければ出力されません。例えば、ロガーはINFO以上、ハンドラがERROR以上を出力する設定なら、ERROR以上のログだけが出力されるという様な仕組みです。

ハンドラが個別に設定を持っていることで、標準エラー出力とログファイルに別々の設定を提供したりできますし、ロガー自体が設定を持っているので、開発中と本番運用中で一括して設定を変えることなどもできます。

ログレベルはこちらの通り で、
NOTSET(0) → DEBUG(10) → INFO(20) → WARNING(30) → ERROR(40) → CRITICAL(50)
の順です。

それぞれ setLevelメソッドを持っているのでそれで設定します。上記のレベルは数値でもいいし、モジュールが定数を持ってます。

次の様なイメージで設定します。

# ロガーのログレベル設定
logger.setLevel(logging.DEBUG)

handler = logging.StreamHandler()
# ハンドラのログレベル設定
handler.setLevel(logging.INFO)
logger.addHandler(stream_handler)

ハンドラごとに設定を変えれば、DEBUGはファイルだけ、INFO以上はファイルと標準出力両方といった設定ができます。

フォーマッターの使い方

ここまでで、ログの出力有無の制御ができたので、最後に出力内容を設定します。これはフォーマッターという仕組みで実現します。

設定によって詳細な時刻や、ログレベル、モジュール名、行番号などを情報に加えることができます。例によってこれもハンドラごとに設定できるので、標準エラー出力には時刻はいらないけど、ファイルには時刻も残したいって出しわけなどができますね。

フォーマッター中で使える変数はこちらの表にまとまっています。
参考: LogRecord 属性

実際に使うのはこの辺かな。

  • asctime ・・・ 時刻を人間が読める書式にしたもの。
  • levelname・・・DEBUGとかERRORなどのログレベル。
  • message・・・ロギングの時に渡されたメッセージ本文。
  • name・・・ロガーの名前。
  • funcName・・・ロギングの呼び出しを含む関数の名前。
  • lineno・・・ソース行番号

使い方のイメージとしては、次の様に %スタイルでフォーマットを作り、setFormatterでセットします。

formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')
handler.setFormatter(formatter)

上記の例は%スタイルでこれはFormatterのコンストラクタのstyle引数がデフォルトの’%’だからこうなってるのですが、style引数に ‘{‘ を渡せば中括弧スタイルでも定義できます。個人的はそちらの方が好きです。

# 以下の二つは同じ
formatter = logging.Formatter("%(asctime)s - %(levelname)s - %(message)s")
formatter = logging.Formatter("{asctime} - {levelname} - {message}", style="{")

一通り動かす

以上をまとめて、書いておきます。これをベースに好みの形でいじっていけば良いロガーがが作れると思います。

import logging


logger = logging.getLogger(__name__)
logger.handlers.clear()
logger.setLevel(logging.DEBUG)

formatter = logging.Formatter("{asctime} - {levelname} - {message}", style="{")

file_handler = logging.FileHandler("sample.log")
file_handler.setLevel(logging.DEBUG)
file_handler.setFormatter(formatter)
logger.addHandler(file_handler)

stream_handler = logging.StreamHandler()
stream_handler.setLevel(logging.INFO)
stream_handler.setFormatter(formatter)
logger.addHandler(stream_handler)

# 使い方。debugはファイルのみ、それ以外はファイルと標準エラー出力に表示。
logger.debug("debug")
logger.info("info")
logger.warning("warning")
logger.error("error")
logger.critical("critical")

何度も書くのは面倒なので自分は上記のコードに色々工夫を入れたものモジュール化して使い回しています。(訳あってこの間、久しぶりに書き直すことになりました。その時loggerの使い方を記事にしてないことに気づいたことがこの記事の発端でした。)

Pythonでユーザーのホームディレクトリを取得する方法

今まで知らなかったメソッド(expanduser)を見つけたのでその紹介を兼ねて小ネタの紹介です。

※注: Windowsでも動作する様に書いていますが、手元にWindowsのPython環境を持っていないのでこの記事の内容はWindowsでは未検証です。

今回の記事でやるのはタイトルの通り、ユーザーのホームディレクトリの取得です。

ホームディレクトリの下に作業ディレクトリやログディレクトリを作ってプログラムで使うと言う状況はそこそこある事だと思っています。書き捨てのスクリプトであればホームディレクトリのパスを直書きしてしまえばいいのですが、どこかに公開する場合や自分で使いまわしたい場合はそれでは不便が起きます。僕の場合でもAWS環境と、複数台のMacを使っているので、ホームディレクトリを直書きしてしまうと使い回しに修正が必要です。そのため、ホームディレクトリは自動的に取得することが望ましく、この記事のテクニックが必要になります。

いくつか方法があるので順番に紹介していきます。ちなみに、サンプルコードではユーザー名がyutaroだと仮定します。そのため結果として得られるホームディレクトリは ‘/Users/yutaro’ です。

環境変数を使う方法

一番簡単なのは環境変数から取得してしまうことですね。Mac/LinuxではHOME、WindowsではHOMEPATHやUSERPROFILEという環境変数に格納されています。次の様にするとどの環境でも動く様に書くことができます。orで繋いで最初に見つかったものを採用しているだけです。なお、絶対Windowsでは使わないよ、って場合はもうHOMEだけ見たら良いです。

import os


home_directory = (
    os.environ.get('HOME') or
    os.environ.get('HOMEPATH') or
    os.environ.get('USERPROFILE')
)
print(home_directory)
# /Users/yutaro

上記の方法は特別なメソッドの知識とかいらないのですがご覧の通り記述量が多いので他の方法をつづいて紹介していきます。以降の方法の方がお勧めです。

osモジュールのメソッドを使う方法

(環境変数の取得もosモジュールでやってるので表題困りましたが、) osモジュールにはexpanduserという専用のメソッドを持っています。これは与えられたパスの先頭の ~ (チルダ) や ~user という文字列をホームディレクトリのパスに置換してくれるものです。

参考: os.path — 共通のパス名操作 — Python 3.11.4 ドキュメント

いくつか実験したのでコードを載せておきます。 ‘~user’って文字列でもいい様なことがドキュメントに書いてますが、これはuserじゃなくてOSのユーザー名を入れないといけない様です。環境ごとの記述の差異を吸収してほしいという今回の記事の主題的にはちょっとダメですね。素直に~だけ使いましょう。

# チルダをHOMEディレクトリに書き換えてくれる。
print(os.path.expanduser("~"))
# /Users/yutaro

# ドキュメントの ~user は ~userという文字列を指してるものではないらしく、~userはそのまま。
print(os.path.expanduser("~user"))
# ~user

# ~ユーザー名、僕の場合は ~yutaro は置換される。
print(os.path.expanduser("~yutaro"))
# /Users/yutaro

# ~の後ろにそのまま文字列が続いていたら置換されない。
print(os.path.expanduser("~work"))
# ~work

# ~の後ろに小ディレクトリを書いておくことができる。
print(os.path.expanduser("~/folder/subfolder"))
# /Users/yutaro/folder/subfolder

# ~が先頭でない場合は置換されない。
print(os.path.expanduser("/~/subfolder"))
# /~/subfolder

最後にpathlibって別のモジュールを使った方法もあるのでそれも紹介します。

pathlibモジュールを使った方法

こちらは、home()っていうズバリなメソッドを持ってます。
参考: pathlib — オブジェクト指向のファイルシステムパス — Python 3.11.4 ドキュメント

これが一番いいかな。(ネックは、pathlibの存在を忘れがちなことくらいか。)

from pathlib import Path


print(Path.home())
# /Users/yutaro

# 実はデータ型が違う
print(type(Path.home()))
# <class 'pathlib.PosixPath'>

print(type(os.path.expanduser("~")))
# <class 'str'>

内部的には、実質的に os.path.expanduser(“~”) と同等の処理をやってるみたいですね。ただし、上のサンプルコードの後半で見ている通り、Path.home()はPathオブジェクトを返してくれているので、その後のパス操作がより直感的になります。

話のついでにもう一つ紹介しておくと、 pathlibもexpanduserを持ってます。ただ、これは文字列を受け付けてくれないのでosのそれより使い勝手が悪いです。(個人の感想)

# Path.expanduser は文字列を受け付けないので例外が発生する。
try:
    print(Path.expanduser("~"))
except Exception as e:
    print(e)
# 'str' object has no attribute '_drv'


from pathlib import PosixPath


# PosixPath型に変換して使う
print(Path.expanduser(PosixPath(("~"))))
# /Users/yutaro

まとめ

以上で、Pythonでホームディレクトリを取得する方法をまとめてきました。ハードコーディングをやめてこれらの方法を使うとコードの使い回しがよりやりやすくなると思います。

個人的にはイチオシは pathlibの Path.home() ですかね。ただ自分でも忘れてosで環境変数取りに行くことが多そうですが。

interpolateメソッドを利用したpandasデータの欠損値の補完

データ分析を行う際、データセットに欠損値(NaNやNoneなど)が含まれていることはよくあります。これらの欠損値をどのように取り扱うかは、分析結果に大きな影響を及ぼすため、重要なステップとなります。

Pandasを使う場合、これらの欠損値に対応する一番簡易的な方法はfillna()を使った定数による補完です。もしくはdropna()を使ってそのデータを消す事もあるかもしれませんね。

しかし、状況によってはすべての欠損値を単一の値で補完するのは、データの分布や傾向を歪める可能性があります。また、時系列データなどでは欠損値が発生したレコードをdropできない事もあるかもしれません。周期がずれたりしますからね。

そこで使えるのが、掲題のinterpolate()メソッドです。これを使うとここの欠損値の前後の値を使った補完など多様な補完ができます。特に引数を指定しなければ線型補完です。

参考: pandas.Series.interpolate — pandas 2.0.3 documentation

まず基本的な使い方を見ていきましょう。欠損値を含む単純なSeriesデータを用意してやってみます。

import pandas as pd
import numpy as np


s = pd.Series([0, 2, np.nan, np.nan, np.nan, 10])
print(s)
"""
0     0.0
1     2.0
2     NaN
3     NaN
4     NaN
5    10.0
dtype: float64
"""

print(s.interpolate())
"""
0     0.0
1     2.0
2     4.0
3     6.0
4     8.0
5    10.0
dtype: float64
"""

はい、等差数列で補完してくれていますね。単純な例なのでとても自然な結果になっています。補完の方法はmethod引数で指定でき、デフォルトは”linear”です。
他には、次の様な値が使えます。
– linear ・・・ 線型補完。これがデフォルト値。
– ffill または pad ・・・ 前の値。
– bfill, backfill ・・・ 後ろの値。
– nearest ・・・ 最も近い値。
– polynomial ・・・多項式補完 (orderで次数を指定する)。
– spline ・・・スプライン補完 (orderで次数を指定する)。

他にも indexの値を考慮してくれるindexやvalue、時系列で使いやすそうなtimeなどもありますね。(実際に指定できる文字列は他にもあり、その種類はかなり多いです。公式ドキュメントの参照をお勧めします。)

いくつかやってみます。

s = pd.Series([0, 2, np.nan, np.nan, np.nan, 10, 9, np.nan, np.nan, 6])
print(s.values)
# [ 0.  2. nan nan nan 10.  9. nan nan  6.]

# 線型補完
print(s.interpolate(method='linear').values)
# [ 0.  2.  4.  6.  8. 10.  9.  8.  7.  6.]

# Pad。ffillも同じ結果。前の値を使う。
print(s.interpolate(method='pad').values)
# [ 0.  2.  2.  2.  2. 10.  9.  9.  9.  6.]

# bfill。backfill。後ろの値を使う。
print(s.interpolate(method='bfill').values)
# [ 0.  2. 10. 10. 10. 10.  9.  6.  6.  6.]

# 最も近い値。
print(s.interpolate(method='nearest').values)
# [ 0.  2.  2.  2. 10. 10.  9.  9.  6.  6.]

# 多項式補完
print(s.interpolate(method='polynomial', order=2).values)
# [ 0.          2.          4.43062201  7.29186603  9.50717703 10.
#  9.          7.88516746  6.88516746  6.        ]

# スプライン補完
print(s.interpolate(method='spline', order=2).values)
# [ 0.          2.          5.30198447  7.26402071  8.60569456 10.
#  9.          8.90854185  7.76876618  6.        ]

polynomial と spline の違いがわかりにくいと思いますが、ざっくり説明すると次の様になります。

polynomial:多項式補間では、欠損値を補完するために多項式関数が使用されます。指定した次数の多項式がデータにフィットされ、その多項式関数に基づいて欠損値が補完されます。しかし、データの点が多い場合や次数が高い場合、多項式補間はデータに過剰にフィットする(オーバーフィッティングする)傾向があります。

spline:スプライン補間では、データセット全体を通じて一つの関数が使用されるのではなく、各データ点の間に別々の多項式(通常は3次)がフィットされます。これらの多項式は、データ点において連続性と滑らかさを保つように選ばれます。スプライン補間は、より滑らかな曲線を生成し、オーバーフィッティングを避けるために通常は低次の多項式(たとえば3次)が使用されます。

この二つの選択に限った話ではありませんが、適切な補間方法を選択する際には、データの性質と分析の目的を考慮することが重要です。

pandasのSeriesのlocには関数も渡せる

何となくpandasのドキュメントを眺めていたら見つけた小ネタの紹介です。
この記事を読むと、pandasのSeriesをもっと手軽に値で絞り込める様になります。
参考: pandas.Series.loc — pandas 2.0.3 documentation

pandasのlocといえば、自分としてはDataFrameで使うことが多いプロパティですが、もちろんSeriesにも実装されています。そして、これを使うとindexの値に従って要素を絞り込むことができます。

今回見つけたのは、このlocにcallable、要するにメソッドが渡せるってことです。渡したメソッドにSeriesの値が渡され、その結果がTrueのものに絞り込まれます。

こんな感じで使えます。例えば値が3以上の要素だけに絞り込む例です。

import pandas as pd

# Seriesを作成
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# 値が3以上の要素だけを絞り込む
s[lambda x: x>=3]
"""
c    3
d    4
e    5
dtype: int64
"""

上記の例だとメリットがわかりにくいかと思います。と言うのもpandasに慣れてる人だったら次の様に書けることがわかってると思いますし、タイプ数も少なく可読性も高いからです。

s[s>=3]
"""
c    3
d    4
e    5
dtype: int64
"""

単純な大小比較や一致不一致ではなく、もっと複雑な判定を行うメソッドを適用するときなどは、このlocにメソッドを渡すやり方が便利に使えますね。

僕が個人的に気に入ったのは、この絞り込みが特定の変数に格納されていないSeriesについても使えると言うことです。
「特定の変数に格納されていないSeries」ってのは、例えばDataFrameのvalues_counts()メソッドなどを実行した結果として得られる値などの形で取得されます。

例えば、dfというDataFrameがあるとして、そのcolumn_name列の値の出現回数を数え、そのうち出現回数が10以上のものだけを取り出すとしましょう。

通常であれば、value_counts()の結果を何かの変数に格納して実行するか、もしくは2回value_counts()を実行する非効率に我慢するかして次の様に実装します。

# カウント結果を一度変数に格納する場合
count_sr = df["column_name"].value_counts()
count_sr[count_sr >= 10]

# value_countsを2回実行する場合
df["column_name"].value_counts()[df["column_name"].value_counts() >= 10]

これが、locにメソッドが渡せることを知っていると次の様に書けます。

# 無駄な変数も定義しないし、value_counts()の実行も1回でいい書き方
df["column_name"].value_counts()[lambda x: x>=10]

個人的に、「ある列の要素ごとに数を数えて、一定件数以上データがあったものだけ残す処理」ってのをやることが頻繁にあり、Seriesのfiterメソッドが値ではなくindexにしか使えないことを日々残念に思っていた自分にとってはめっちゃ嬉しいテクニックだったので紹介しました。

ちなみに、DataFrameのlocも同じ様にcallableを渡せます。こっちはあまり使い道が思いつかないですね。
参考: pandas.DataFrame.loc — pandas 2.0.3 documentation

Jupyter notebook ファイルをモジュールとして import する

タイトルの通りで、Jupyter notebookファイル (.ipynb ファイル)をモジュールとしてインポートする方法を紹介します。

僕は普段のコーディングをJupyterでやっているので、自分で使う汎用的なモジュールを作るときも一度Jupyterで作って.pyファイルに移行するという手順で作っていました。一回完成させて仕舞えばそれでいいのですが、作りかけのものを別のプログラムで使いたいとか、それに限らず、あるnotebookで定義した関数を別のnotebookで使いたい、ってときにこれまでセルの中身をコピペしてたのですが、実はnotebookファイルのままimportできるという噂を聞き試しました。

機械学習の前処理とか何度も同じコードを書いてるので使いまわせる様になると便利そうです。

使うのはこちらの importnb というライブラリです。
参考: importnb · PyPI

とりあえず試してみましょう。
importされる側のnotebookファイルを以下の内容で作ります。importできることの確認だけなので、適当なメソッドと定数が定義されているだけのファイルです。

ファイル名は sub_file.ipynb としました。

def foo():
    return "bar"


hoge = "hoge"

では、このファイルをimportしてみましょう。

importnb sub_file とかで済むと簡単なのですが、やや独特な記法でimportします。先ほどのsub_file.ipynb は閉じて新しいnotebookファイルで以下の様に書きます。

from importnb import imports


with imports("ipynb"):
    import sub_file

これでimportできました。
メソッド foo や 変数 hoge が使えます。

print(sub_file.foo())
# bar

print(sub_file.hoge)
# hoge

少し検証してみたのですが、このライブラリはimportされるnotebookの中身によっては注意して使う必要があります。というのも、notebookを import するときにimport されるnotebookの全てのセルが実行されるのです。なので、何かファイルを書き出す処理があればimportした時点でファイルを書き出ししますし、重い処理があれば時間かかりますし、外部APIを叩く処理が入っていたら外部APIを叩きます。

宣言されているメソッドやクラス、変数だけを持ってきて使えると言うわけでは無いのでimportするnotebookは慎重に選びましょう。

というか、その確認作業をするのであれば .py ファイルに書き出すとか必要なセルだけコピペして持ってくるといった対応をする方が早いことが多く、この importnb を使う場面ってかなり限られるなぁと言うのが自分の所感です。

頻繁に使っうMeCabを使った前処理とかワードクラウドクラウド作成とか汎用的なSQLとか自分が頻繁に使うメソッドや定数をまとめた神notebook集を用意したりするとまた活用の幅も出てくるかもしれませんね。

もう一点、検証時に気付いた注意点があります。これ、notebookのセルを全て実行するので、その中に一つでもエラーになるセルがあったらimportを失敗します。

そのエラーになるセルより先に実行されたセルの中身だけimportされるのではなく、何もimportされない結果になります。これも注意しましょう。

Excel VBA で J-Quants APIを実行する

自分はもう10年以上使っているのですが意外と知られていない技術として、Excel VBAではHTTPアクセスを用いてWebサイトの情報取得やWeb APIの実行ができます。もしかしたらニーズがあるかもしれない技術なので紹介します。

APIの例として J-Quants API を利用しますが他のAPIでも同様に使えると思います。J-Quants APIを選定したのは利用手順の中でPOSTやGETやヘッダーの設定等いろいろ技術が必要で網羅的な紹介ができるからです。

このブログでは普段は暗黙のうちにOSがMacであることを前提としていますが、この記事に限ってはWindows前提です。MacのExcelでは動作しないと思います。

APIの利用方法自体はPython版の記事があるのでこちらをご参照ください。照らし合わせながら見ると、Excel VBA の XMLHTTP60 オブジェクトの使い方が分かってくると思います。

参考: J-Quants API の基本的な使い方

参照設定

以下の二つを参照設定しておいてください。XMLのほうがhttpアクセスに必要です。正規表現のほうは返ってきたJSONから必要な部分を取得するのに使います。VBAはJSONの扱いが不便なので、何か事情が無ければPython等の他の言語をお勧めします。

  • Microsoft XML, v6.0
  • Microsoft VBScript Regular Expressions 5.5

リフレッシュトークンの取得関数

リフレッシュトークンを取得する関数のコードは以下のようになります。

Public Function get_refresh_token(email As String, passoword As String) As String
    Dim objXMLHTTP As New XMLHTTP60
    Dim re As New RegExp
    Dim mc As MatchCollection
    Dim account_data As String
    Dim auth_user_url As String
    
    account_data = "{""mailaddress"": """ & email & """,""password"": """ & passoword & """}"
    auth_user_url = "https://api.jquants.com/v1/token/auth_user"
    
    Call objXMLHTTP.Open("POST", auth_user_url, False)
    Call objXMLHTTP.send(account_data)
    Do While objXMLHTTP.readyState <> 4
                DoEvents
    Loop
    
    ' Rehresh Tokenを取り出す正規表現
    re.Pattern = "refreshToken"": ""([^""]+)"""
    
    Set mc = re.Execute(objXMLHTTP.responseText)
    get_refresh_token = mc.Item(0).SubMatches(0)
    
End Function

12行目から15行目までが、APIにデータをPOSTして結果を待っている部分です。メソッド(POST)、URLをopenで指定して、sendするときにPOSTするデータを渡しています。この構文を覚えておくと大抵のAPIは使えます。GETメソッドの時はPOSTするデータはないのでsendの引数は空でよいです。

戻ってくるデータはJSONの文字列なので、正規表現で取り出してます。

idトークンの取得関数

リフレッシュトークンが取得出来たら次はidトークンです。これはリフレッシュトークンを組クエリパラメーターでPOSTします。

Public Function get_id_token(refresh_token As String) As String
    Dim objXMLHTTP As New XMLHTTP60
    Dim re As New RegExp
    Dim mc As MatchCollection
    Dim auth_refresh_url  As String

    auth_refresh_url = "https://api.jquants.com/v1/token/auth_refresh?refreshtoken=" & refresh_token
    
    Call objXMLHTTP.Open("POST", auth_refresh_url, False)
    Call objXMLHTTP.send
    Do While objXMLHTTP.readyState <> 4
                DoEvents
    Loop
    
    
    ' id Tokenを取り出す正規表現
    re.Pattern = "idToken"": ""([^""]+)"""
    
    Set mc = re.Execute(objXMLHTTP.responseText)
    get_id_token = mc.Item(0).SubMatches(0)
    

ほとんど同じですね。

メインのAPIを実行する関数

idトークンが取得出来たら目当てのAPIを取得する関数を実行します。とりあえず時系列データを取ってみましょうか。

JSONで各日の4本値データが返ってくるので、1日分ずつ取得して Sheet1 のセルに張り付ける処理にしました。この時点では、まだ1日分のデータがJSON形式になっているので、Excel や VBAで利用するにはもう一段階パースする必要がありますが、ここまでできればあとは手間だけの問題でしょう。

先ほどまでのTokenの取得と違って、リクエストのヘッダーを設定しないといけないのでその処理が入っています。

Public Sub get_price(id_token As String, code As String)
    Dim objXMLHTTP As New XMLHTTP60
    Dim re As New RegExp
    Dim mc As MatchCollection
    Dim daily_quotes_url As String
    Dim i As Integer

    ' daily_quotes_urlを構築
    daily_quotes_url = "https://api.jquants.com/v1/prices/daily_quotes?code=" & code

    Dim from_ As String
    Dim to_ As String
    Dim headers As Object
    Dim daily_quotes_result As Object
    Dim daily_quotes_df As Object
    
    Call objXMLHTTP.Open("GET", daily_quotes_url, False)
    Call objXMLHTTP.setRequestHeader("Authorization", "Bearer " & id_token)
    Call objXMLHTTP.send
    Do While objXMLHTTP.readyState <> 4
                DoEvents
    Loop
    
    ' 1日分のデータにマッチする正規表現
    re.Pattern = "{[^{}]*Date[^{}]*}"
    re.Global = True
    
    Set mc = re.Execute(objXMLHTTP.responseText)
    ' セルに出力
    For i = 0 To mc.Count - 1
        Sheet1.Cells(i + 1, 1) = mc.Item(i)
    Next i
End Sub

各関数と処理を実行する

一通り関数を作りましたので、次のプロシージャを使って呼び出しましょう。

Sub main()
    Dim refresh_token As String
    Dim id_token As String
    
    refresh_token = get_refresh_token("{メールアドレス}", "{パスワード}")
    id_token = get_id_token(refresh_token)
    Call get_price(id_token, "{証券コード}")
    
End Sub

これで動作するはずです。

Pythonを覚えて以来、この種の処理はほとんど全部Pythonでやるようになりましたが、まだまだデータ加工でExcelの出番が発生することはあり、Excel VBA でデータ取得から一貫して行えると便利な場面もあると思います。

とはいえ、通常はVBAはJSONの扱いが不便すぎるので、Pythonでデータ取得スクリプト書いた方が早かったりもするのですがPythonが使えない環境では重宝するでしょう。

Jupyterのnotebookファイルをコマンドラインでクリアする

JupyterのノートブックをGitで管理する場合、出力をクリアしてコミットすることが多いと思います。もちろん、exampleファイルなどの場合は出力結果の図などが付いた状況で保存したいということもあるとは思いますが。

それ以外にも、notebookファイルの数が大量になってくるとグラフやワードクラウドなどの出力を含む一つ一つのファイルサイズの大きさがディスク容量を圧迫するということもあるでしょう。そういった場合、最初は出力結果も残しておきたいけど1~2年経ったら中身クリアしてディスク節約したいなってこともあります。

この様な場合に、一回一回notebookを起動して出力をクリアして保存し直すというのはかなり手間です。

そこで、コマンドラインで実行する方法を紹介します。

利用するのは jupyter nbconvert です。
以前、notebookをコマンドラインで実行する記事でも使いましたね。
参考: Jupyter notebookのファイルをコマンドラインで実行する

ドキュメントを見ても、該当の記述が見つからないのですが、jupyter nbvonvertには –clear-output というオプションがあり、これを使うと出力をクリアできます。

ヘルプを見るとその中には記載があります。

$ jupyter nbconvert --help
# 該当部分を抜粋
--clear-output
    Clear output of current file and save in place,
            overwriting the existing notebook.
    Equivalent to: [--NbConvertApp.use_output_suffix=False --NbConvertApp.export_format=notebook --FilesWriter.build_directory= --ClearOutputPreprocessor.enabled=True]

使い方は簡単で、あとはnotebookファイル名を指定するだけです。

$ jupyter nbconvert --clear-output sample.ipynb

これで、notebookがクリアされ、未実行の状態になって上書き保存されます。

もし、ディスク容量の節約が目的であれば、この時点では思ったほど容量が節約できていないということもあるかもしれません。それは大抵、隠しディレクトリの .ipynb_checkpoints というのが生成されているせいなのでこれを丸ごと消しておきましょう。(実行時のバックアップなので、このディレクトリは消しても実害ありません。)