[BlueLeaf1336]> PROBLEMS> MizuhoGetter>
history | TOP |
2004/11/07:作成
2004/11/10:更新
2004/11/07 | TOP |
さて、以下に示す形式のURLを取得することも、解析し易いように加工することもひとまずできるようになりました。ついでなので、加工後の形も参照できるようにしておきます。(赤太字は連番)
やはり、「最近」系のデータは、販売金額なんかが書かれているため、どう考えても邪魔臭そうです。逆に「過去」系のデータは簡単そうで、特に、"loto0001.html"と"loto60001.html"については、一種類の処理でどうにかなりそうな勢いです。
邪魔くさそうな場合は、簡単な奴からやっつけるのが鉄則だと思いますので、この2つを先にやってしまいましょう。まずは、それぞれのファイルの先頭を何行分か抜き出したものを並べてみます。
loto0001.html | loto60001.html |
---|---|
宝くじコーナー・ミニロト(略) MINI LOTO (第1回 〜 第50回) INDEX 第 1回 〜 第 5回 第 6回 〜 第10回 第11回 〜 第15回 第16回 〜 第20回 第21回 〜 第25回 第26回 〜 第30回 第31回 〜 第35回 第36回 〜 第40回 第41回 〜 第45回 第46回 〜 第50回 第 1 回 〜 第 5 回 回別 抽せん日 本 数 字 ボーナス数字 第1回 H11.4.13 01 03 17 20 25 26 第2回 H11.4.27 02 11 12 21 30 28 (略) | 宝くじコーナー・ロト6(略) LOTO6 (第1回 〜 第50回) INDEX 第 1回 〜 第 5回 第 6回 〜 第10回 第11回 〜 第15回 第16回 〜 第20回 第21回 〜 第25回 第26回 〜 第30回 第31回 〜 第35回 第36回 〜 第40回 第41回 〜 第45回 第46回 〜 第50回 第 1 回 〜 第 5 回 回別 抽せん日 本 数 字 ボーナス数字 第1回 H12.10.5 02 08 10 13 27 30 39 第2回 H12.10.12 01 09 16 20 21 43 05 (略) |
そっくりです。それにデータの並びも非常に素直です。次のようにやればうまくいきそうです。と思いましたが、やっぱりおとなしくそれぞれ処理を分けることにします。
まずは、MINI LOTOの過去データ処理について。
それから、LOTO6の過去データ処理について。
こんな感じで、完璧そうです。しかし、滅茶苦茶似てるんですが...。そして、出力形式はこんな感じに。
続く。
2004/11/10 | TOP |
...と書いたんですが、その前に(コレばっかり)、事前加工したファイルをどの方法で処理するべきか、簡単にいうと、各ファイルがどのデータなのかを判定します。
ファイル名称が種類ごとにルールがあるので、ここでも正規表現を使って判定します。えーと、早い話が次の表です。
ファイルの種類 | ファイル名の例 | 規則 | 正規表現 |
---|---|---|---|
MINI LOTO 過去のデータ | loto0001.html | loto「数字4連続」.html | loto[0-9]{4}.html |
LOTO6 過去のデータ | loto60001.html | loto6「数字4連続」.html | loto6[0-9]{4}.html |
MINI LOTO 最近のデータ | loto-h1609.html | loto-h「数字4連続」.html | loto-h[0-9]{4}.html |
LOTO6 最近のデータ | lt6-h1609.html | lt6-h「数字4連続」.html | lt6-h[0-9]{4}.html |
NUMBERS共通 過去のデータ | num0001.html | num「数字4連続」.html | num[0-9]{4}.html |
NUMBERS3 最近のデータ | num3-h1609.html | num3-h「数字4連続」.html | num3-h[0-9]{4}.html |
NUMBERS4 最近のデータ | num4-h1609.html | num4-h「数字4連続」.html | num4-h[0-9]{4}.html |
スクリーンショット | TOP |
「解析」タブが追加されました。前回までに作成済みの処理(ファイルの取得と前準備)がすんだ状態で実行すると、ファイルを巡回して、どれがどの種類なのかを判定します。判定するだけです。
20041110MizuhoGetter.zip(12,674bytes)※ソースコードと実行ファイル。
相変わらず「HTMLソースの解析」と名乗りながら、解析は一切していません。次回こそは、(少なくとも1つのフォーマットぐらい)解析したいところです。
EOF | TOP |