[BlueLeaf1336]> PROBLEMS> MizuhoGetter>
history | TOP |
2004/10/30:作成
overview | TOP |
みずほ銀行 のウェブサイト 宝くじコーナー・トピックス で、宝くじの当選番号が公開されています(2004/10/30現在)。
上段が「ミニロト・ロトシックス」下段が「ナンバーズ」です。どちらも過去の当選番号です(最新の分をここでリンクしてもすぐにリンク切れになるのが見えているので)。
さて、これらの過去の当選番号はHTMLで公開されており、2次使用がとても邪魔くさくなっています。そこで、HTMLをぐじゃぐじゃといじって、もっと使いやすい形、具体的にはCSVとして出力しようじゃないか、と思います。
注意すべき点としては、HTMLのフォーマットが変わったら駄目という点につきますが、そのあたりは柔軟に対応せずに、現時点のフォーマットを信じることにします。
プログラムを作るわけですが、目標としては、上記の2つのリンクを与えるだけで、現時点までの全ての当選番号つまり
を第1回から最新回までをブッコ抜くということにします。微妙な点として、現在「過去のデータ」としてまとめて公開されている分と、「何年何月分」として配当金額まで公開されている分で、フォーマットが異なる点はもちろんなんですが、いつの時点かで「何年何月分」が「過去のデータ」に移動されるということです。
毎回全部取得するなら問題ないんですが、それもなぁ、ということです。何かデータベース(mdb)にでも書いておくほうがよいかもしれません。
まあ、その辺はその時に考えることにして、まずは先の2つのトップページからそれぞれの当選番号の書いてあるページにたどり着く、またそのページをダウンロードする、というところから手をつけることにします。
EOF | TOP |