[BlueLeaf1336]> PROBLEMS> 探求其之弐 マイクロソフト技術情報目次作成>

やる気のあるうちに続き

historyTOP

2006/09/13:作成
2006/09/14:技術情報のキーワードについて追加

はじめにTOP

このページではやりたくなった順にテストしてみたり、書いてみたりします。

ダウンロードできた後のデータの抜き出しTOP

<html> から <XMLREADER> までのデータをダウンロードできたとして、そのデータから

を抜き出すための処理を考えます。リンクタグ作成 HrefBuilder > 基本処理作成 でも使っていますが、ここでも vbscript を使って正規表現を利用します。

再び引用。


<html><head><script type="text/javascript" src="/common/script/gsfx/common.js?4"></script><script>setcookieval("gssSITE","gn");</script><script type="text/javascript">SaveToFavoritesData.savingMsg='¥u4fdd¥u5b58¥u4e2d';SaveToFavoritesData.connectionErrorMsg='¥u63a5¥u7d9a¥u3067¥u304d¥u307e¥u305b¥u3093¥u3067¥u3057¥u305f';SaveToFavoritesData.savedMsg='¥u3053¥u306e¥u30da¥u30fc¥u30b8¥u3092¥u4fdd¥u5b58¥u3057¥u307e¥u3057¥u305f';SaveToFavoritesData.noSaveErrorMsg='¥u4fdd¥u5b58¥u3067¥u304d¥u307e¥u305b¥u3093¥u3067¥u3057¥u305f';SaveToFavoritesData.surveyUrl='¥x2fcommon¥x2fsurvey.aspx¥x3fscid¥x3dsw¥x3bja¥x3b1167¥x26surveystyle¥x3dpopup¥x26showpage¥x3d1¥x26site¥x3dgn¥x26siteregion¥x3dja¥x26url¥x3d%2fDefault.aspx%3fscid%3dkb%3bja%3b256986¥x26p0¥x3dkb¥x26p1¥x3dja¥x26p2¥x3d256986';SaveToFavoritesData.noCookieUrl='¥x2fgp¥x2fnocookies';</script><script>var g_currentContent='kb¥x3bja¥x3b256986';</script><script type="text/javascript" src="/common/script/fx/survey.js?4"></script><meta name="robots" content="noarchive"><meta name="KBParents" content="8593 3198 1163 5886 5887 5891 5892 5914 3219 1173 5917 3221 6728 3223 5918 3222 5924 3228 7341 7274 1131 7940 7017 5732 3071 7941 7936 7606 3188 6842 5872 5881 3194 6843 6719 6519 6321 6912 6898 7482 6713 6513 1139 10435 7864 9980 5902 3208 1167 5903 "><meta name="Keywords" content="kbinfo kbregistry kbenv kbfaq kbpubtypekc kbmsccsearch KB256986"><meta name="Description" content="Microsoft Windows レジストリについて説明し、その編集方法に関する情報を提供します。"><meta name="MS.LOCALE" content="ja"><meta http-equiv="content-type" content="text/html; charset=utf-8"><script>var gCookieDomain='';</script><title>Microsoft Windows レジストリの説明</title><XMLREADER>

正規表現のテストは、Peggy Pad を使います。

title

正規表現<title[^>]*>([^<]*)</title>
抽出結果<title>Microsoft Windows レジストリの説明</title>
指定部分(括弧内)Microsoft Windows レジストリの説明

Description 一撃でいけるんだろうけど...



正規表現<meta[¥s]*name[¥s]*=[¥s]*"?description"?[¥s]*([^>]*)>
抽出結果<meta name="Description" content="Microsoft Windows レジストリについて説明し、その編集方法に関する情報を提供します。">
指定部分(括弧内)content="Microsoft Windows レジストリについて説明し、その編集方法に関する情報を提供します。"


正規表現content[\s]*="?([^">]*)"?
抽出結果content="Microsoft Windows レジストリについて説明し、その編集方法に関する情報を提供します。"
指定部分(括弧内)Microsoft Windows レジストリについて説明し、その編集方法に関する情報を提供します。

Keywords 一撃でいけるんだろうけど...



正規表現<meta[¥s]*name[¥s]*=[¥s]*"?keywords"?[¥s]*([^>]*)>
抽出結果<meta name="Keywords" content="kbinfo kbregistry kbenv kbfaq kbpubtypekc kbmsccsearch KB256986">
指定部分(括弧内)content="kbinfo kbregistry kbenv kbfaq kbpubtypekc kbmsccsearch KB256986"


正規表現content[\s]*="?([^">]*)"?
抽出結果<meta name="Keywords" content="kbinfo kbregistry kbenv kbfaq kbpubtypekc kbmsccsearch KB256986">
指定部分(括弧内)kbinfo kbregistry kbenv kbfaq kbpubtypekc kbmsccsearch KB256986

KBParents 一撃でいけるんだろうけど...



正規表現<meta[¥s]*name[¥s]*=[¥s]*"?kbparents"?[¥s]*([^>]*)>
抽出結果<meta name="KBParents" content="8593 3198 1163 5886 5887 5891 5892 5914 3219 1173 5917 3221 6728 3223 5918 3222 5924 3228 7341 7274 1131 7940 7017 5732 3071 7941 7936 7606 3188 6842 5872 5881 3194 6843 6719 6519 6321 6912 6898 7482 6713 6513 1139 10435 7864 9980 5902 3208 1167 5903 ">
指定部分(括弧内)content="8593 3198 1163 5886 5887 5891 5892 5914 3219 1173 5917 3221 6728 3223 5918 3222 5924 3228 7341 7274 1131 7940 7017 5732 3071 7941 7936 7606 3188 6842 5872 5881 3194 6843 6719 6519 6321 6912 6898 7482 6713 6513 1139 10435 7864 9980 5902 3208 1167 5903 "


正規表現content[\s]*="?([^">]*)"?
抽出結果<meta name="KBParents" content="8593 3198 1163 5886 5887 5891 5892 5914 3219 1173 5917 3221 6728 3223 5918 3222 5924 3228 7341 7274 1131 7940 7017 5732 3071 7941 7936 7606 3188 6842 5872 5881 3194 6843 6719 6519 6321 6912 6898 7482 6713 6513 1139 10435 7864 9980 5902 3208 1167 5903 ">
指定部分(括弧内)8593 3198 1163 5886 5887 5891 5892 5914 3219 1173 5917 3221 6728 3223 5918 3222 5924 3228 7341 7274 1131 7940 7017 5732 3071 7941 7936 7606 3188 6842 5872 5881 3194 6843 6719 6519 6321 6912 6898 7482 6713 6513 1139 10435 7864 9980 5902 3208 1167 5903

「title」以外は、一段目で「metaタグ全体」を、二段目で「content内」を処理しています。ほぼ間違いなく、順番も含めて

<meta name="****" content="++++">

の形式に決まっていると思いますが、なんとなく二段階に分けています。

技術情報のキーワードについてTOP

キーワードのひとつを検索語にして Google って見たら即見つかりました。

EOFTOP