正規表現

・指定URLの id = table01 の内容（テキスト- innerText）を表示－GetIeItemInfo関数

・同、HTMLソースを表示（innerHTML）

・テーブル内のデータ個数を(GetRegExCount関数)表示

・HTMLを正規表現(GetRegEx関数)で解析し、必要な項目を抽出する

表示テキストからの抽出は不正確であるため、HTMLソースからデータを抽出します。

上記のHTMLソースを調べると下記のようになっています。

----------------------------------------------
テーブル名：id=table01　←　ＩＥタグ解析ツールで容易に調査可

それぞれの項目－１番目ロシア

<td class="rank">1位</td>
<td class="name tap">
  <a href="http://ecodb.net/country/RU/">ロシア</a>
</td>
<td class="value">17,070,000.00 </td>
<td class="rank_prev tap">
n/a
</td>
<td class="ctype">国</td>
<td class="area">ヨーロッパ</td>

----------------------------------------------

よって、ここでは、下記のように正規表現を設定します。

　　正規表現の書式については右記を参照　－　正規表現の書式

順位
	`<span class=\x22rank_area rank\d+\x22>(\d+?)位</span>`
	`(\d+?)`　数字が1個以上連続する部分を抽出
国旗へのリンク、国名称
	`href=\x22(.+?)\x22>(\D+?)<`
	`(.+?)` アドレス部分は１個以上の任意の文字列
	`(\D+?)`　国名は数字以外の１個以上の任意の文字列
面積
	`(?:class=\x22value\x22>)?([\d\,\.]+?)<`
	`([\d\,\.]+?)`　数字、カンマ、ピリオドのどれかが１個以上連続

それぞれの項目の間には任意の文字（改行を含む）が存在するので、

(\d+?)位(?:.|\n)+?href=\x22*(.+?)\x22*>(\D+?)<(?:.|\n)+?(?:class=\x22value\x22>)?([\d\,\.]+?)<

となります。

(\d+)?　　　　　　１個以上の数字の最短マッチ
(\D+)?　　　　　　１個以上の数字以外の最短マッチ

([\d\,\.]+)? 　数字、カンマ、ピリオドのいずれかが１個以上の最短マッチ

?:　　　　　　　　　キャッチアップ（抽出対象）としないことを意味する
(?:.\n)?　　　　　改行を含む任意の最短マッチ文字－キャッチアップ（抽出対象）しない
(?:class=\x22value\x22>)?
　　　　　　　　　　　class="value"> の文字で最短マッチ－キャッチアップ（抽出対象）しない

\x22　　　　　　　「"」ダブルクォートを表すＡＳＣＩＩコード、「"」と直接記述すると文字列全体を囲む「"」と混同してしまうため。

正規表現の全体としては、

上記の赤文字（カッコ内）の部分が抽出する項目
それぞれ、見つかった順に、変数　%$1% , %$2% , %$3% , %$4% に格納されます。

-----------------------------------

文字列の整形表示について

%adrs_list%formatb(%rank%,"@@@") formatb(%nation%,"!@@@@@@@@@@@@@@@@@@") formatb(%value%,"@@@@@@@@@@@@@") %link_flag%

formatb 関数を使用して、半角換算の文字数に揃うようにしています。

formatb(Expression,"@@@@@@@@@@")
半角換算10文字になるように前に半角空白を詰める。
!@@@@@@@@@@ とすると、左詰め（後部に半角空白）となる。

------------------------------------

コードの使用方法

INIT 123 541 786 940 0[%CM%]0[%CM%]1[%CM%]600000[%CM%]0[%CM%] ! テーブルの表示テキストを単純取得 0 Set // innetText 0 text_data GetIeItemInfo([%DQ%]http://ecodb.net/ranking/area.html[%DQ%][%CM%]table01[%CM%]innerText) SHOW_MSG 0 4380 2820 14535 10260 0[%CM%]-2147483643[%CM%]0[%CM%]0[%CM%]-2147483640[%CM%]12[%CM%]ＭＳＰゴシック[%CM%]False[%CM%]False[%CM%]False[%CM%]False[%CM%] テーブル内テキスト　innerText[%NL%]--------------------------------------[%NL%]%text_data%101101 ! ! テーブルのHTMLデータを取得 Set 0 Set // innetHTML 0 html_Data GetIeItemInfo([%DQ%]http://ecodb.net/ranking/area.html[%DQ%][%CM%]table01[%CM%]innerHTML[%CM%][%CM%]1) SHOW_MSG // HTML表示 0 4410 2985 12810 9825 0[%CM%]-2147483643[%CM%]0[%CM%]0[%CM%]-2147483640[%CM%]12[%CM%]ＭＳＰゴシック[%CM%]False[%CM%]False[%CM%]False[%CM%]False[%CM%] HTML　テーブル(id=table01) 内容[%NL%]-------------------------------------------[%NL%]%html_data%101101 ! ! データ個数 Set // 個数取得 count GetRegExCount(%html_data%[%CM%][%DQ%]href=(.+)?>[%DQ%]) SHOW_MSG // 表示 0 4410 2985 10200 4620 0[%CM%]12189625[%CM%]0[%CM%]0[%CM%]0[%CM%]14.25[%CM%]ＭＳＰゴシック[%CM%]False[%CM%]False[%CM%]False[%CM%]False[%CM%] 総個数 = %count%51000 ! ! 正規表現でデータ抽出 Set // インデックス index 1 Do-While // ループ－個数分 %index%<=%count% Set // 正規表現抽出 rc GetRegEx(%html_data%[%CM%][%DQ%](\d+?)位(?:.|\n)+?href=\x22*(.+?)\x22*>(\D+?)<(?:.|\n)+?(?:class=\x22value\x22>)?([\d\[%CM%]\.]+?)<[%DQ%][%CM%]%index%) Set // 順位 rank %$1% Set // 国旗アドレス link_flag %$2% Set // 国名 nation %$3% Set // 面積 value %$4% Set // データ連結 adrs_list %adrs_list%[%NL%]formatb(%rank%[%CM%][%DQ%]@@@[%DQ%]) formatb(%nation%[%CM%][%DQ%]!@@@@@@@@@@@@@@@@@@[%DQ%]) formatb(%value%[%CM%][%DQ%]@@@@@@@@@@@@@[%DQ%])　　%link_flag% SHOW_MSG // 表示 0 2385 2625 11760 5685 0[%CM%]-2147483643[%CM%]0[%CM%]0[%CM%]0[%CM%]12[%CM%]ＭＳゴシック[%CM%]False[%CM%]False[%CM%]False[%CM%]False[%CM%] No. = %index% / %count%[%NL%][%NL%]Rank = %rank%[%NL%]Nation = %nation%[%NL%]Value = %value%[%NL%]Flag = %link_flag%00000 AddVariable // インデックスアップ %index% 1 WLoop SHOW_MSG // 順位表 0 705 435 13605 8370 0[%CM%]-2147483643[%CM%]0[%CM%]0[%CM%]0[%CM%]12[%CM%]ＭＳゴシック[%CM%]False[%CM%]False[%CM%]False[%CM%]False[%CM%] 面積順位表[%NL%]----------------------------------------------------[%NL%]%adrs_list%01101

HTMLソースを直接利用　ＧｅｔＷｅｂＤｏｃ

対象となるウェブページは上記と同じ。

ただし、ここではGetWebDoc()関数を利用して、直接HTMLドキュメントソースを取得します。
IE（インターネットエクスプローラー）を使わないので、IEがインストールされていない場合でも動作。

ソースを表示してみます。

<!DOCTYPE html> <html lang='ja'> <head> <meta http-equiv='Content-Type' content='text/html; charset=utf-8' /> <title>世界の面積ランキング - 世界経済のネタ帳</title> <meta property="og:title" content="世界の面積ランキング - 世界経済のネタ帳" /> <meta property="og:type" content="website" /> <meta property="og:url" content="http://ecodb.net/ranking/area.html" /> ～～～～～～～～～～～～～～～～～～～～～ <table id='table01' class='tablesorter'> <thead> <tr> <th class='rank'>順位 </th> <th class='name'>国名称</th> ～～～～～～～～～～～～～～～～～～～～～ <tbody> <tr id='RU_'> <td class='rank'>1位</td> <td class='name tap'>   <a href='http://ecodb.net/country/RU/'>ロシア</a> </td> <td class='value'>17,070,000.00 </td> <td class='rank_prev tap'> n/a </td> <td class='ctype'>国</td> <td class='area'>ヨーロッパ</td> </tr> <tr id='CA_'> <td class='rank'>2位</td> ～～～～～～～～～～～～～～～～～～～～～～ <tr id='VA_'> <td class='rank'>201位</td> <td class='name tap'>   <a href='http://ecodb.net/country/VA/'>バチカン</a> </td> <td class='value'>0.44 </td> <td class='rank_prev tap'> n/a </td> <td class='ctype'>国</td> <td class='area'>ヨーロッパ</td> </tr> </tbody> </table>

プログラムの流れ

・指定URLのドキュメント全体を表示

・同、テーブル部分を表示－GetRegEx関数
　　　<table id='table01' xxx>～　</table> 　

・テーブル内のデータ個数を(GetRegExCount関数)表示

・HTMLを正規表現(GetRegEx関数)で解析し、必要な項目を抽出する

ＩＥを起動しない分、ＨＴＭＬドキュメント取得は、かなり高速になります。
（ただし、正規表現による抽出時間は同じ。）

正規表現は下記のように設定します。

　　正規表現の書式については右記を参照　－　正規表現の書式

ほとんどは同じですが、ダブルクォーﾄ記号が、シングルクォートになっています。
よって、ここではコードではなく、そのまま「'」を記述しています。

テーブル部分
	`(<table id='table01'.+>(?:.\|\n)+?</table>)`

順位
	`<span class='rank_area rank\d+'>(\d+?)位</span>`
	`(\d+?)`　数字が1個以上連続する部分を抽出
国旗へのリンク、国名称
	`<a href='(.+?)'>(.*)</a>`
	`(.+?)` アドレス部分は１個以上の任意の文字列
	`(\D+?)`　国名は数字以外の１個以上の任意の文字列
面積
	`class='value'>([\d\,\.]+)?<`
	`([\d\,\.]+)?`　数字、カンマ、ピリオドのどれかが１個以上連続

それぞれの項目の間には任意の文字（改行を含む）が存在するので、

(\d+?)位(?:.|\n)+?<a href='(.+?)'>(.*)</a>(?:.|\n)*?class='value'>([\d\,\.]+)?<

となります。

(\d+)?　　　　　　１個以上の数字の最短マッチ
(\D+)?　　　　　　１個以上の数字以外の最短マッチ

([\d\,\.]+)? 　数字、カンマ、ピリオドのいずれかが１個以上の最短マッチ

?:　　　　　　　　　キャッチアップ（抽出対象）としないことを意味する
(?:.\n)?　　　　　改行を含む任意の最短マッチ文字－キャッチアップ（抽出対象）しない
(?:class=\x22value\x22>)?
　　　　　　　　　　　class="value"> の文字で最短マッチ－キャッチアップ（抽出対象）しない

\x22　　　　　　　「"」ダブルクォートを表すＡＳＣＩＩコード、「"」と直接記述すると文字列全体を囲む「"」と混同してしまうため。

正規表現の全体としては、

上記の赤文字（カッコ内）の部分が抽出する項目
それぞれ、見つかった順に、変数　%$1% , %$2% , %$3% , %$4% に格納されます。

スカラー変数を使用した正規表現

IE利用－GetIeItemInfo(関数)

抽出する項目

抽出結果

対象となるウェブページ

プログラムの流れ

HTMLソースを直接利用　ＧｅｔＷｅｂＤｏｃ

プログラムの流れ

スカラー変数を使用した正規表現

IE利用－GetIeItemInfo(関数)

抽出する項目

抽出結果

対象となるウェブページ

プログラムの流れ

HTMLソースを直接利用 ＧｅｔＷｅｂＤｏｃ

プログラムの流れ

HTMLソースを直接利用　ＧｅｔＷｅｂＤｏｃ