分析ノート

2025-06-302025-06-24

RSAキーペアを生成しPythonを使って中身を見てみる

最近はさまざまな分野でセキュリティインシデントが起きており、それに対応する形で僕らが業務で関わるデータ基盤関連でも、セキュリティ要件が厳しくなってきました。直近ではSnowflakeでMFA認証が必須化されるなどしています。

さて、人間がアクセスするときはスマホ等を使ってMFA認証を行えば良いのですが、プログラムがアクセスする場合はそうは行きませんので、key-pair認証など別の設定が必要になります。かつてはこれ系の作業はインフラに強い方に丸投げしていましたが、最近は自分でやることになってしまったので、RSAキーペアの生成方法をメモっておきます。

また、少し興味が湧いたので作った鍵の中身を調べたのでそれも書いておきます。

キーペアの生成

RSAキーペアは次のようにしてコマンドで生成できます。一個目のコマンドで秘密鍵を生成して、それを使って2個目のコマンドで公開鍵を生成しています。鍵のファイル名はサンプルなので、実際は誰が何に使う鍵なのかわかる名前をつけることになるでしょう。

% openssl genrsa -out private_key.pem 2048
% openssl rsa -in private_key.pem -pubout -out public_key.pub

.pemの方が秘密鍵で、.pub の方が公開鍵です。人に渡したりサーバーやサービスにセットする方を間違えないように気をつけましょう。

2048 は鍵の長さです。

中身を見ると次のような形式になっています。

% cat private_key.pem
-----BEGIN RSA PRIVATE KEY-----
MIIEowIBAAKCAQEAwnZIg27PKq6mLwuDVqiz3cOMYJCtqB2tAaL+vOB/VGdM1ds2
iLpPOdNhZigrFoD8LBRFeXrn23Q3opISloFX5LrvtJXsIOk45Zflpub50tkPTflj

 - 略 - 

WdfGVngs11Gd3OT9CC2V5tVCpDPxUHBviKIOCOKHb5q4IYgBXlX1Xwcsd4KJIx50
bHQjCcYt1wSlAQagSlLfsPRC1y0mXurZOs/F0BGLgQro/jeiKgqo
-----END RSA PRIVATE KEY-----

% cat public_key.pub
-----BEGIN PUBLIC KEY-----
MIIBIjANBgkqhkiG9w0BAQEFAAOCAQ8AMIIBCgKCAQEAwnZIg27PKq6mLwuDVqiz
3cOMYJCtqB2tAaL+vOB/VGdM1ds2iLpPOdNhZigrFoD8LBRFeXrn23Q3opISloFX

 - 略 - 

rDHrhHTAgKDaNrFy1PLRWHmE0w0M/ngchE25k69HoGemT4oIvL+JbDL3V6AFMaDP
hQIDAQAB
-----END PUBLIC KEY-----

中身は秘密鍵の方が長いです。というのも秘密鍵は公開鍵の情報を丸々含んでいます。

鍵の中身を見てみる

せっかくどこでも使う予定のない鍵が手に入りましたのでこの鍵の中身を見てみましょう。
実際に使う鍵の中身をこんな風にブログに書いたらダメですよ。僕はここで紹介した鍵は削除しました。

Pythonの cryptography というライブラリを使うと情報を取り出すことができます。

参考: cryptography·PyPI

さっそく秘密鍵の中身を見てみましょう。

from cryptography.hazmat.primitives import serialization
from cryptography.hazmat.backends import default_backend

# 秘密鍵を読み込む
with open("private_key.pem", "rb") as f:
    private_key = serialization.load_pem_private_key(
        f.read(),
        password=None,  # パスフレーズ付きの場合はここにバイト列で指定
        backend=default_backend()
    )

# 秘密鍵の数値情報を取得
numbers = private_key.private_numbers()

# 各パラメータを取り出す
p = numbers.p
q = numbers.q
d = numbers.d
e = numbers.public_numbers.e
n = numbers.public_numbers.n

# 結果表示
print("p =", p)
print("q =", q)
print("N =", n)
print("e =", e)
print("d =", d)

# 以下結果
p = 174133000333614936251362999206227860029444673295141932972756327545187355887637580675845610664732281565651334714513232626572441206440561414170428774362884631860250636232708661138275511162457879412349843835517159363893036855388397226040977706038652364697299640899324687348973169499749667372761674059770673656629
q = 140975913603825512865433959056646382702361935777499472419212522540191330505017933970970762139496160871799290332197347035791494515097734048740629670759835202686652442863083851916085465724371693643565312804882327777405809193107901841163414696083477090821404402929399270028604262684620027839978379930283952219409
N = 24548558810606618461714517881475571186801470737734856289181906135685571436612839039259065775494709490930728278157311520395762849181607242747850831454736180599681279862693238176150540622438912255878978592670111595906897714523616692063251022518366718003120234171604788397519019358925498472209334335726916622936597269506716359074552614787798827874135764437117487596219535422595921699375964590386756870344786648678653088861414353465043760006273962034589357489387236169768178574232749586811613156702272081106349985519890401315163913638436782511526167393949905883529322221683725691489616448816345865842671162340854135312261
e = 65537
d = 13240122499939151056139632017890916806382220519198528545000729911013288578512199544084871110462967428718562833941536693950425399850805975394178606579955746763766028339817475469008242052296385728802878622993277607771504852453824239961544377877484602304900909673370988227827101900910014106492261482291519628163156164158764612915654971280659892167924007771913593516749042459046495321420282068147453755383464469170205891152453336170458271647963007252530827415316811250149784471773288702352832641102529049728530752039357391142463166518174867148426717436503599697894186806424473904750877262018256278182647586659073657018817

簡単に取り出せましたね。

これがちゃんとRSA暗号の鍵になっているのかみておきます。p, qが素数であるかどうかの確認はちょっと大変なので置いといて、 $p\cdot q = N$ と $e \cdot d \equiv 1 \pmod{(p – 1)(q – 1)}$を見てみます。

print(p*q-n)
# 0
print((e*d)%((p-1)*(q-1)))
# 1

バッチリですね。

最後にもう一つ、鍵の長さ2048を確認しておきましょう。これはNのビット長です。ビット長を返す専用メソッドがあるのでそれを使うこともできますし、概算値にはなりますが、2を底とする対数で見ることもできます。(数が大きすぎてnumpyのlogでは扱えないので、mathモジュールのlog2を使います)

print(n.bit_length())
# 2048


import math

print(math.log2(n))
# 2047.6033447803356

こちらもバッチリですね。

ちなみに、公開鍵も同じようにして情報を取り出せます。こちらはNとeしか含まれておらず、p,q,dはありません。

from cryptography.hazmat.primitives import serialization
from cryptography.hazmat.backends import default_backend

# 公開鍵を読み込む
with open("public_key.pub", "rb") as f:
    public_key = serialization.load_pem_public_key(
        f.read(),
        backend=default_backend()
    )

# 数値情報を取得
numbers = public_key.public_numbers()

# N と e を取得
n = numbers.n
e = numbers.e

# 結果表示
print("N =", n)
print("e =", e)

# 以下結果
N = 24548558810606618461714517881475571186801470737734856289181906135685571436612839039259065775494709490930728278157311520395762849181607242747850831454736180599681279862693238176150540622438912255878978592670111595906897714523616692063251022518366718003120234171604788397519019358925498472209334335726916622936597269506716359074552614787798827874135764437117487596219535422595921699375964590386756870344786648678653088861414353465043760006273962034589357489387236169768178574232749586811613156702272081106349985519890401315163913638436782511526167393949905883529322221683725691489616448816345865842671162340854135312261
e = 65537

秘密鍵のうち、公開鍵として必要な部分が含まれていることがわかりました。

2025-05-192025-05-17

毎日同じ時間にブログが落ちるようになってしまったので調査した結果

ここ最近、このブログが昼過ぎからアクセスできなくなるという現象が発生していました。たいてい夕方にサーバー再起動して復旧していたのですが多くの方にご迷惑をおかけしたと思います。

wordpressの宿命なのかもしれませんがこのブログも度々不正アクセスのターゲットにされているようでおかしなアクセスは毎日発生しています。そのため、また何かしらの攻撃を受けていたのだろうと考えてアクセスログ等確認していたのですが今回アクセスができなくなるほどの事象に発展していたのは少し事情が違ったので調査の過程と結果を残しておきます。

サーバーの起動状況の確認

最初に確認したのはサーバーの起動状況です。Webブラウザでのアクセスはできなかったのですが、sshでログインすることはできました。

また、WebサーバーやDBが起動していることもコマンドで確認できました。(このblogはAWS Lightsailで立ててます)

$ sudo /opt/bitnami/ctlscript.sh status
apache already running
mariadb already running
php-fpm already running

メトリクスの確認

起動してるのにブラウザでアクセスできないので、次の確認はCPU等のリソースの状況です。

こちらはAWSのコンソールで確認します。CPU使用率を見ると15:30頃から急上昇してバーストし、クレジットをつか切ったあたりで10%にキャップされているのが確認されました。

アクセスログの確認

つぎはどうせまた誰かが連続アクセスしているのだろう、と思ったので以下の場所にアクセスログを確認しました。

/opt/bitnami/apache2/logs/access_log
/opt/bitnami/apache2/logs/error_log

実際、攻撃と見られるアクセスは大量に見つかりましたが、ただ、このCPUリソースを枯渇させるほどアクセスが集中しているということはありませんでした。エラーは確かに増えていますがこれは原因と結果が逆でCPUが枯渇したからそうなってるものです。

CPUを利用しているリソースの確認

$ top コマンドを用いて確認しました。結果は mysqld (MySQL)プロセスがCPU使用率151%を占有していました。

実行中のクエリを調べる

MySQLが原因なのがわかったので次は実行中のクエリを調べます。MySQLに入って次のクエリを打ちます。

SHOW FULL PROCESSLIST;

Time が大きいものを調べます。ブログにアクセスが続いていたので多くのクエリが詰まっているのが確認できました。

その中で、 wp_aiowps_audit_log というテーブルへのDELETE文がクエリ詰まりの原因になっているのがわかりました、

この wp_aiowps_audit_log はこのブログで使っているセキュリティプラグインの監査ログです。

どうも、ある日莫大な量の不正アクセスを受け、この監査ログが数十万レコード規模の大きなテーブルになっていたようです。そして古いものを消すDELETE処理に時間がかかるようになったというのが今回のCPU枯渇の原因でした。

対応1 巨大になった監査ログテーブルのレコードを削除する

不正アクセスは間接的な原因で、不正アクセスの監査ログの扱いが直接的な問題となってアクセスができなくなっていたことがわかったので対応しました。

一つはdeleteを効率化するためのindexの設定です。

SHOW INDEXES FROM wp_aiowps_audit_log;

を使ってインデックスを確認したところ、削除対象を決めるのに使っていた created 列にインデックスがないことがわかったので作成しました。

ALTER TABLE wp_aiowps_audit_log ADD INDEX idx_created (created);

続いて、莫大になってしまったレコードの削除です。一回でDELETEしようとするとバッチが行ったのと同じように止まってしまっていたので、小分けに消しました。

-- 1回に5000件ずつ削除
DELETE FROM wp_aiowps_audit_log
WHERE created < UNIX_TIMESTAMP(DATE_SUB(NOW(), INTERVAL 7 DAY))
LIMIT 5000;

DELETE文に LIMIT が使えるというのを今回初めて知りました。

削除対象が0になるまでこれを何度も発行しました。

対応2 XML-RPC経由のアクセスをブロックする

さて、こちらがセキュリティ面の本対応です。

このブログはログインページのURLをデフォルトから変えていて、通常は辿り着けず、ログインを試行することもできないようにしています。それでも今回不正ログインを試みた監査ログが数十万単位で発生したのは、XML-RPC 経由でのログインを試みられていたからでした。

幸い、All-in-One WP Security のファイアウォール設定でブロックできるので今回からブロックすることしました。

これでおそらく今回の事象は解決したんじゃないかなと思います。

これはこれとして、数々の攻撃を受けているのは確かなので不正なアクセス検知やIPアドレス指定してのブロック等々可能な対応は順次進めていこうと思います。

2025-04-282025-04-29

Gitで間違ったブランチにcommitしてしまった場合にコミットを別ブランチに移す方法

最近手元でやらかしてしまった失敗のリカバリー方法のメモです。

要するに、ブランチを切ってコミットするべきだったのにmainブランチにコミットしてしまった状態からリカバリーする手順になります。

注意点として、Github等のリモートのリポジトリにプッシュする前であれば使える方法です。もしプッシュしてしまっていたら他の人の環境に影響することがあるので正直にリバートしましょう。

さて、本題に戻ります。コミットするブランチを間違えて幸いpushする前に気付けたら次の手順で修正できます。

1. 新しいブランチ(本来コミットしたいブランチ)を作成して切り替える

% git checkout -b {新ブランチ}

2.mainブランチ(間違ってコミットしたブランチ)に戻る

% git checkout main

3.最後のコミットを取り消す

% git reset --hard HEAD~1

これで、mainブランチの間違ったコミットが消えます。

一方で、新たに作ったブランチはその最後のコミットが残っているので、実質的にコミットがブランチを移動したことになりました。

あとはその正しくコミットしたブランチに戻って修正作業を続けるなり、リモートリポジトリにプッシュするなりしたら良いです。

2025-03-312025-03-26

Pythonのライブラリを使って祝日の一覧を得る

最近のとあるタスクで、祝日の一覧が必要なことがありました。まぁ、たかだか1年分くらいの祝日であれば検索して出てきたカレンダーとかから転記しても良いですし、今の時代ならChatGPTに頼めばPythonで使える配列で実装してくれるでしょう。

ただ、Pythonのライブラリで専用のものがあることもわかり、使い方を確認したので記録しておきます。

使用するライブラリは workalendar です。ドキュメントはこちら。

これは世界中の国の祝祭日を扱えるライブラリで、その中で日本の祝祭日も一覧を得たり判定したりできます。

ドキュメントの Basic Usageのページにフランスの事例が載っているのでそれを真似しながら日本の祝日の一覧を取ってみましょう。年を指定して実行しますが2025年を使います。

from workalendar.asia import Japan


cal = Japan()
cal.holidays(2025)
"""
[(datetime.date(2025, 1, 1), 'New year'),
 (datetime.date(2025, 1, 13), 'Coming of Age Day'),
 (datetime.date(2025, 2, 11), 'Foundation Day'),
 (datetime.date(2025, 2, 23), "The Emperor's Birthday"),
 (datetime.date(2025, 3, 20), 'Vernal Equinox Day'),
 (datetime.date(2025, 4, 29), 'Showa Day'),
 (datetime.date(2025, 5, 3), 'Constitution Memorial Day'),
 (datetime.date(2025, 5, 4), 'Greenery Day'),
 (datetime.date(2025, 5, 5), "Children's Day"),
 (datetime.date(2025, 7, 21), 'Marine Day'),
 (datetime.date(2025, 8, 11), 'Mountain Day'),
 (datetime.date(2025, 9, 15), 'Respect-for-the-Aged Day'),
 (datetime.date(2025, 9, 23), 'Autumnal Equinox Day'),
 (datetime.date(2025, 10, 13), 'Sports Day'),
 (datetime.date(2025, 11, 3), 'Culture Day'),
 (datetime.date(2025, 11, 23), 'Labour Thanksgiving Day')]
"""

このように一覧が簡単に出力できます。

ただ、注意しないといけないのは振替休日に対応してなさそうな点です。2025/02/23 は上記の結果の通り天皇誕生日ですが、日曜日なので2025/02/24が振替休日でした。しかしこれはリストには入っていません。

次に、これを使うとある日が平日(営業日)なのかのどうかの判定ができます。これはis_working_day()メソッドを使います。

日曜でも祝日でもなければTrueが帰ってきます。

from datetime import datetime
from datetime import timedelta


start_day = datetime(2025, 2, 10)
for i in range(15):
    target_day = start_day + timedelta(days=i)
    if cal.is_working_day(target_day):
        print(f"{target_day} は平日です。")
    else:
        print(f"{target_day} は平日ではありません。")
"""
2025-02-10 00:00:00 は平日です。
2025-02-11 00:00:00 は平日ではありません。
2025-02-12 00:00:00 は平日です。
2025-02-13 00:00:00 は平日です。
2025-02-14 00:00:00 は平日です。
2025-02-15 00:00:00 は平日ではありません。
2025-02-16 00:00:00 は平日ではありません。
2025-02-17 00:00:00 は平日です。
2025-02-18 00:00:00 は平日です。
2025-02-19 00:00:00 は平日です。
2025-02-20 00:00:00 は平日です。
2025-02-21 00:00:00 は平日です。
2025-02-22 00:00:00 は平日ではありません。
2025-02-23 00:00:00 は平日ではありません。
2025-02-24 00:00:00 は平日です。
"""

上記の通り、建国記念日(2025/02/11)や土日(2/15, 2/16, 2/22, 2/23) はFalseが帰ってきたので平日ではないという結果になっていますね。

ただ、やっぱり振替休日に対応していないので2025/2/24は判定をミスっています。

このほか、営業日のみカウントして特定の日付からn日後の日を求めるといったこともできます。

start_date = datetime(2025, 4, 25)
n_days = 3

workday = cal.add_working_days(start_date, n_days)
print(workday)  # 2025-05-01

4月26,27日は土日で、29日は昭和の日なので、3営業日後の5月1日が得られましたね。

振り返り休日に対応してないってのと、祝祭日に法的な変更が入ったらこまめにバージョンを上げていかないといけないというデメリットはありますが、それ以外では小回りのきくメソッドをいろいろ持っていますので、興味のある方は一度ドキュメントを読んでみてください。

2025-02-242025-02-27

pyvisで可視化したネットワークにおいてポップアップでテキストを表示する

以前紹介したpyvisの話です。
参考: pyvisでネットワーク可視化

最近久しぶりに使ったのですが、その時はそこそこ長いテキストをノードし、類似度によってエッジを貼るようなグラフを構築し可視化しました。

ノードに全文表示すると長すぎて視認性が全くなくなったので、ラベルにテキストのidや序盤の数文字を表示させていて、全文は別の場所で参照する、とやっていたのですがこれが非常に不便でした。

そこで、何かしら対応策ないかなと思っていたのですが、マウスオーバーした際にポップアップで表示するテキストを別途設定できることがわかりました。

設定自体も非常に簡単で、title という属性を指定するだけでした。

参考: Documentation — pyvis 0.1.3.1 documentation

これはノードだけでなくエッジに対しても設定できます。やってみましょう。

from pyvis.network import Network


# ネットワークのインスタンス生成
network = Network(
    notebook=True,  # これをTrueにしておくとjupyter上で結果が見れる
    cdn_resources='in_line',
    bgcolor='#ffffff',  # 背景色。デフォルト "#ffffff"
)

network.add_node(n_id=1, label="ラベル1", shape="box", title="ポップアップさせたいテキスト1")
network.add_node(n_id=2, label="ラベル2", shape="circle", title="ポップアップさせたいテキスト2")
network.add_edge(1, 2, label="辺のラベル", title="辺のポップアップ")

network.show("pyvis_sample1.html")

これで作成されたネットワーク図は、ノードやエッジにマウスオーバーした際にポップアップが表示されます。

簡単で便利ですね。

2025-01-272025-01-26

NetworkXのグラフから連結成分や孤立ノードを取り出す

久々にNetworkXを使ったのですが、その時使った関数のメモです。

とあるノードの集合に対して、ある条件を満たすペアに対してエッジを張って行き、その結果出来上がった非連結なグラフから連結成分たちを取り出すという操作をやりました。

使った関数をこのブログでまだ紹介していなかったのでその周辺の操作も含めて紹介します。

とりあえず、サンプルのグラフを準備しておきましょう。連結成分が3組と、孤立ノードが2個ある次のようなグラフを作りました。

import networkx as nx


G = nx.Graph()
G.add_edges_from([
    (1, 2), (2, 3), (3, 1),  # コンポーネント1
    (4, 5), (5, 6),  # コンポーネント2
    (7, 8),  # コンポーネント3
])
G.add_nodes_from([9, 10])  # 孤立ノードを2個追加

見ての通り、(孤立してるのも含めて)連結成分が5組ありますね。

ここから連結している成分を取り出すには、nx.connected_components() というメソッドを使います。
参考: connected_components — NetworkX 3.4.2 documentation

結果がイテレーターで帰ってくるのですが今回の例は小さいのでlistにしておきましょう。

connected_components = list(nx.connected_components(G))
print(connected_components)
"""
[{1, 2, 3}, {4, 5, 6}, {8, 7}, {9}, {10}]
"""

はい、5組がそれぞれ出てきました。

孤立成分を除きたい場合は、この中からノードが2個以上あるものに絞り込むと良いでしょう。

print([c for c in connected_components if len(c) > 1])
# [{1, 2, 3}, {4, 5, 6}, {8, 7}]

逆に、ノードが1個のものに絞ると孤立成分が抽出できます。しかし、孤立成分を探す場合は、nx.isolates() という専用メソッドもあります。
参考: isolates — NetworkX 3.4.2 documentation

print(list(nx.isolates(G)))
# [9, 10]

また、連結成分の数や孤立成分の数を返す関数として、number_connected_components, number_of_isolates がそれぞれ用意されています。

print(nx.number_connected_components(G))
# 5
print(nx.number_of_isolates(G))
# 2

最後に、このノードが含まれてる連結成分が欲しいんだ、というケースもあると思います。その場合は、node_connected_component()を使います。
参考: node_connected_component — NetworkX 3.4.2 documentation

print(nx.node_connected_component(G, 4))
# {4, 5, 6}

帰ってきているのはそのノードを含む連結成分のノードの一覧(set)であって、サブグラフオブジェクトではないのでその点は注意してください。これは先ほどの連結成分の一覧を返してきてたメソッドと同様です。

2024-12-302024-12-31

2024年のまとめ

今年も1年間お疲れ様でした。あっという間の1年間でしたね。

この1年間はデータサイエンティストとして、そして技術系のブロガーとしては激動の1年間だったと思います。なんといってもLLMの発展の影響が色々なところに出てきました。そしてプライベートでも色々イベントの多い1年でした。

このブログのこと

このブログに関しては(少し遅れた日もありますが記事数は)なんとか目標通り週1本のペースを維持することができ、この記事で今年53本目になります。合計では671本になりました。

ただしその一方で、LLMの影響か？とも考えているのですがアクセス数は徐々に下がっています。自分の学習や調べ物を考慮しても、最初からAIに聞きそれを元に公式ドキュメントをあたる対応をとることが増え、他の人の記事を参照して調べるということがかなり減りました。
そして、おそらくそれは他の人たちも同じで、何か調べてこのブログがヒットするという機会が減っているのかなとも思います。

また、データサイエンティストとか機械学習とか統計学等々のブームはLLMを除いて落ち着いてきて、新規に流入してくる人も減ったのかなぁと感じています。LLMはほとんどの人にとっては、他社が開発したサービスを利用するだけですからね。

そういったわけで、アクセスいただいたユーザー数などのこのブログの指標は昨年の半分程度に落ちており、しかも年始から年末にかけて下降トレンドなので来年はもっと下がる見通しです。

僕個人としてもアクセス数などの指標をモチベーションにするのは避けるようになってきました。というのもそれらの指標を気にしているとダイレクトにモチベーションが下がってしまって記事の質が下がったり更新が遅れたりといったことにつながってしまっているからです。

記事を書くことが自分のスキルアップにつながっている感覚はあり、直近の転職ではこのブログの存在にも大いに助けられた感覚はあるのでなんらかの形で続けたいのですがなかなか難しいところですね。

このブログ以外の発信について

さて、このブログは低調ですが、この1年間はnoteにも月1本の記事を投稿してきました。こちらも年間12本の目標達成です。noteの方は会社の看板も背負ってますし業務に関することを書きやすいということもあり結構実践に踏み込んだ記事を揃えることができたと思います。

とはいえ、このブログが4~5本、noteが1本という更新はなかなかしんどかったですね。

項目反応理論のよりテクニカルな話をもっと書きたいと思ってはいるのですがそれはこのブログになるのかnoteになるのかは未定です。

お仕事の話

昨年転職して現職について1年半ほど経過しました。教育関係のデータサイエンティストとしてだいぶ仕事が板に付いてきたと思えます。データ基盤の各種ツールが手に馴染んてきたこと、人間関係がしっかりできてきたこと、メインウェポンの項目反応理論が思いのほか面白くて学んでいて楽しいことなどが良い要因です。

仕事に関しては、来年早々の共通テストが正念場なので気を引き締めていきたいです。

私生活の話

趣味でポーカーをやっているのですが、とある大会で順調に勝ち進んで韓国で行われた決勝戦に招待していただけたのが今年のハイライトでした。

その他、マーダーミステリーを数十本やったり街歩きの謎解きに参加したり、ボードゲームで遊んだり、美術館や博物館に行くようになったりと趣味が広がる1年間でした。

この調子で来年も楽しんでいきたいと思います。

来年に向けて

来年のこのブログの更新ですが、更新ペースに関して目標を設定するのは一旦やめようと思っています。生成AIの発展により個人が運営している技術ブログというものの存在価値もだいぶ下がっていると思いますし、実際ニーズがなくなっている実感があるからです。

とはいえ何かしらの更新はしようと思うので月1本くらいは何か記事書けたらいいなと思ってはいます。noteと合わせて月に2本は何かしらの発信がある計算です。

今までのような小ネタを書いてもいいですし、それこそキャリア系の著名な方々が書いてるようなキャリア系のポエムや読み物記事を書いても良いかもしれません。

キャリア論的なことを語りだすと自分の成長が止まるような気がしてこれまで書いてこなかったのですが、自分もそろそろ40代に突入するような年になっています。自分の成長だけ優先してるわけにもいかないので後進の方々にとって何かしら有意義な発信ができたらいいなと思います。特に前職では採用等もやっていて1000人近くの候補者を選考してたりしますし、メンバー育成等も担当していたのでその辺の経験からも何か書ければと。

それではみなさま、今年も1年間ありがとうございました。また来年もよろしくお願いいたします。

2024-12-232024-12-30

MySQLのデータのダンプとリストア

タイトルはMySQLですが、実際には AWS RDSのAurora (MySQL)を想定しています。

Aurora Serverless v2 への移行も見据えて、MySQLのデータの移行方法を調べました。dumpをとる専用のコマンドがあり、それでバックアップを取得してそれを戻せば良いようです。

ドキュメントはこちらになります。
参考: MySQL :: MySQL 8.0 リファレンスマニュアル :: 4.5.4 mysqldump — データベースバックアッププログラム

ドキュメントの一番下の方に例として一番シンプルなコマンドが載っています。

# データベース全体のバックアップを作成
shell> mysqldump db_name > backup-file.sql
# ダンプファイルをサーバーにロード
shell> mysql db_name < backup-file.sql

ただし、これはそのローカルサーバーにDBMSがあってパスワード等もかかってない場合に使うものなので、現実的にはDBのエンドポイント等を指定する必要があります。

# バックアップ
$ mysqldump -h <エンドポイント> -u <ユーザー名> -p --databases <データベース名> > aurora_backup.sql
# リストア
$ mysql -h <エンドポイント> -u <ユーザー名> -p < aurora_backup.sql

ダンプするときにデータベース名はスペース区切りで複数まとめて指定することもできます。

一方で、ダンプファイルにDB名の情報は含まれているので、リストアする時はDB名の指定は不要です。

–all-databases という全てのデータベースを対象とするオプションもありますが、システム情報的なDBまで含まれてしまうのでこれは使わず、自分で必要なDBを指定した方が安全だと思います。バージョンが違うDB間で移行するような時は特に注意が必要です。

最後に、ダンプを取るときに特にオプション等でタイムゾーンに関する設定をしなければ、datatime型のデータはタイムゾーンの情報を持たずにダンプされてしまいます。

移行前後のDB間でタイムゾーンが違うと異なる時間で解釈されるリスク等もあるので、先に設定を揃えておきましょう。

2024-12-162024-12-28

Amazon Aurora Serverless v2 がAUCの最小値を0に設定できるようになりました

Aurora Serverless v1のサポート終了が近づいてきた(が今では少しだけ延長されていますが)昨今ですが、v2 で遂に待ちに待った機能が追加されました。それがスケーリングの最小値を0にできるというものです。

リリース: Amazon Aurora Serverless v2 がゼロキャパシティへのスケーリングをサポート – AWS

以前の記事で Aurora Serveless v2 を検証したとき、キャパシティを0にできないことで僕は導入を断念してたんですよね。

参考: Amazon Aurora Serverless v2が出たので使ってみた

注意点としては、サポートされているDBのバージョンが少し限定されている点だけでしょうか。

引用すると、
0 ACU は Aurora PostgreSQL 13.15 以上、14.12 以上、15.7 以上、16.3 以上、Aurora MySQL 3.08 以上でサポートされています。
とあります。

MySQLは3.08以上なので今後新しいバージョンが出たらそれは順次対応していそうですね。

Aurora Serverless v2 で新規のデータベースを作成する画面に進むと確かに AUCのキャパシティが 0〜設定できるようになっていました！
これで僕らのような個人利用しているユーザーも本格的に v2に移行できますね。

2024-12-092024-12-28

Streamlit in SnowflakeにおけるSQLの結果取得について

今年から使いはじめた Streamlit in Snowflake についての記事です。

とはいえ、Sreamlit要素はほぼなく、Snowflake上で使うからこそ発生するSQLの結果の取得方法(=pandasのDataFrameとしての取得方法)をまとめておきます。

Streamlit in Snowflake の場合、Snowflkaeにログインして使いますので認証情報として現時点でログインしているセッションの情報が使えます。それを取得する専用の関数として、get_active_session があるので、これを呼び出すのが最初の準備です。

from snowflake.snowpark.context import get_active_session


# Snowflakeセッションの取得
session = get_active_session()

ここから下は「query」という変数にSQL(SELECT)文が格納されている前提になります。

sessionの sql()というメソッドでSQLを発行し、結果を得ることができます。さらに、その結果は to_pandas() というメソッドを持っており、これを使うことでDataFrame型に変換できます。

結果を表示したい場合は streamlitの dataframeとかtableといったメソッドが使えますね。

# クエリの実行と結果の取得
result = session.sql(query).to_pandas()
st.dataframe(result)
st.table(result)

続いて、 SELECT文ではなく show columns や describe table のケースも紹介します。

こちらは sqlメソッドで発行できるのは同じなのですが、結果が to_padnas()メソッドを持っていません。

ここでは、collect() というメソッドを使います。

result = session.sql(query).collect()
st.dataframe(result)

簡潔ですが以上で Streamlit in SnowflakeでSQLを発行し結果をStreamlit内で使えるようになります。