MizuhoGetter > HTMLソースの取得と解析

history TOP

2004/10/30:作成

overview TOP

実は、以前に作成したリンクタグ作成ユーティリティ HrefBuilderというプログラムで、HTMLのダウンロードと非常に簡単な解析(タイトルを取得するだけ)をやったことがあります。今回はそれを流用することにします。

さて、みずほ銀行のウェブサイトは今のところSJISで記述されているようなので、ややこしいことは言わずに普通に取得して大丈夫のようです。

HTMLの取得 TOP

やることは2つ。現在インターネットがつかえる状況にあるかのチェック。実際の取得。方法は、答えが書いてあるページを探し出すだけで、以前の参考にしたページがそのまま健在でした。

sample_inet01_c:[2004/10/30]
Delphi壁の穴 - [2.システムを覗く]:[2004/10/30]

上はCで書かれており、下はDelphiで書かれています。もちろんここではDelphiを使いますので、上は翻訳が入りますが、下はそのままで使えます。もっともまったく同じのを再掲しても仕方がないので、読み取りバッファの使い方を少し変えたものにします。確かこの方法は、こける Wired - Winsockを使ってみようぜで使用されてて、へー、と思った方法です。

HTMLの取得 - ソースコード TOP

uses
    Windows, SysUtils, Classes, WinInet;

//  ---------------------------------------------------------------------------
//  つながってますか？
function IsOnline(): Boolean;
begin
    Result := InternetAttemptConnect(0) = ERROR_SUCCESS;
end;

//  ---------------------------------------------------------------------------
//  HTMLソースの取得
function GetHtmlFile(Stream: TStream; const URL: string): Boolean;
const
    UserAgent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows 98)';
var
    hSess: HINTERNET;
    hServ: HINTERNET;
    Buf: string;
    Len: Cardinal;
begin
    Result:=False;

    //  インターネットにつながってるかチェック
    if not IsOnline() then exit;

    //  セッションを開いて
    hSess := InternetOpen(PChar(UserAgent), INTERNET_OPEN_TYPE_PRECONFIG, nil, nil, 0);
    try
        //  いけてたら
        if Assigned(hSess) then
        begin
            //  URLを開く
            hServ := InternetOpenUrl(hSess, PChar(url), nil, 0, INTERNET_FLAG_RELOAD, 0);
            try
                //  いけてたら
                if Assigned(hServ) then
                begin
                    //  全部読み込めるまでくり返す
                    while true do
                    begin
                        //  読み取りバッファのサイズを 1024 バイトにセット
                        SetLength(Buf, 1024);
                        //  読み取り
                        InternetReadFile(hServ, @Buf[1], Length(Buf), Len);
                        //  読み込んだサイズを調べる(0なら最後までいけた)
                        if Len = 0 then Break;
                        //  読み込んだサイズにバッファを調節
                        SetLength(Buf, Len);
                        //  引数のストリームに書き込む
                        Stream.Write(Buf[1], Length(Buf));
                    end;
                    //  ストリームの現在位置を最初に戻す
                    Stream.Position := 0;
                    Result := True;
                end;
            finally
                //  URLを閉じる
                InternetCloseHandle(hServ);
            end;
        end;
    finally
        //  セッションを閉じる
        InternetCloseHandle(hSess);
    end;
end;

この関数を使用すると、たとえば、指定したURLのソースをTMemoに表示するなら、こんな感じになります。

procedure TForm1.Button1Click(Sender: TObject);
var
    MS: TMemoryStream;
begin
    MS := TMemoryStream.Create;
    GetHtmlFile(MS, Edit1.Text);
    Memo1.Lines.LoadFromStream(MS);
    MS.Free;
end;

解析 TOP

次は解析です。こっちが邪魔くさいんですが、HTMLそのものを理解するようなプログラムを作りたいわけではないので、この文字があったらどう、とかこの次の行がコレのはず、見たいな嫌過ぎる前提を持ち込むことにします。あ、解析といっても当選番号が実際に記述されているページへのリンク集のページの解析ですので、ここでいきなり番号が取得されるわけではないです。もっと簡単です。

「リンク」だとわかっているわけなので、「href」とそれに続く「XXXX.html」を見つけだすだけです。

整理すると、

宝くじコーナー・ロト当せん番号案内のページを取得
「loto0001.html」形式へのリンクを抽出(MINI LOTO 過去のデータ)
「loto60001.html」形式へのリンクを抽出(LOTO6 過去のデータ)
「loto-h1609.html」形式へのリンクを抽出(MINI LOTO 最近のデータ)
「lt6-h1609.html」形式へのリンクを抽出(LOTO6 最近のデータ)
宝くじコーナー・ナンバーズ当せん番号案内のページを取得
「num0001.html」形式へのリンクを抽出(共通過去のデータ)
「num3-h1609.html」形式へのリンクを抽出(NUMBERS3 過去のデータ)
「num4-h1609.html」形式へのリンクを抽出(NUMBERS4 過去のデータ)

という手順になると思います。実際にしんどいのは、この先ですね。どう考えても。そういうわけで、まずは、上記の順番で処理するプログラムを作ればよいということになります。

ちょっと考えるとそれよりも直リンクした方がよいですね。つまり、

MINI LOTO 過去のデータ
http://www.takarakuji.mizuhobank.co.jp/miniloto/loto0001.html
LOTO6 過去のデータ
http://www.takarakuji.mizuhobank.co.jp/miniloto/loto60001.html
MINI LOTO 最近のデータ
http://www.takarakuji.mizuhobank.co.jp/miniloto/loto-h1609.html
LOTO6 最近のデータ
http://www.takarakuji.mizuhobank.co.jp/miniloto/lt6-h1609.html
NUMBERS共通過去のデータ
http://www.takarakuji.mizuhobank.co.jp/numbers/num0001.html
NUMBERS3 最近のデータ
http://www.takarakuji.mizuhobank.co.jp/numbers/num3-h1609.html
NUMBERS4 最近のデータ
http://www.takarakuji.mizuhobank.co.jp/numbers/num4-h1609.html

に対して、連番部分をプログラムで次々と生成して「Not Found」が帰ってきたら終了、のようにしたほうがよほど賢そうです。適当なURLで試してみると、このサイトのサーバーは

<TITLE>404 Not Found</TITLE>

を返すようなので、この文字列が含まれていたら終了、でよさそうです。

長くなったので次へ。

EOF TOP

*02/02/2008 01:43:38
*BlueLeaf1336-PROBLEMS-2004_0043 > MizuhoGetter > HTMLソースの取得と解析 :: MizuhoGetter > HTMLソースの取得と解析
*<a target="link" href="http://blueleaf1336.g2.xrea.com/problems/2004_0043.html">BlueLeaf1336-PROBLEMS-2004_0043 > MizuhoGetter > HTMLソースの取得と解析 :: MizuhoGetter > HTMLソースの取得と解析</a>