 
    
    
         
地名等の位置情報をWWWページ中から正確に抽出するためには、WWWページを形態 素解析し、品詞情報を利用する方法が有効である。 そのため、内容の評価は、主に形態素解析を使用して行うが、地名やランドマー ク名には固有名詞が多く使用されており、形態素解析に使用される辞書は全てを 網羅しきれていない。 そこで、地名やランドマークに関する固有名詞を辞書に登録して形態素解析をお こなう。
また、位置情報として有用な電話番号、郵便番号は形態素解析では抽出できない
ため、表 のようなパターンによる抽出を行う。
表
のようなパターンによる抽出を行う。
表 に示したパターンは、実際にWWWページを見て得られた
ものである。
表
に示したパターンは、実際にWWWページを見て得られた
ものである。
表 には、WWWページ中からの電話番号抽出実験の結果も示
しており、各パターンの出現回数は表
には、WWWページ中からの電話番号抽出実験の結果も示
しており、各パターンの出現回数は表 通りである。
パターンの出現文書数は、1369ページ[10.3%]で、このことからも電話番号等パ
ターンマッチによる情報抽出が有効なことが分かる。
実験には、YAHOO Japan,NTTディレクトリ,Infoseek Japanを始点URLとした13313
ページ(幅優先探索のみを使用して収集したもの)を用いている。
通りである。
パターンの出現文書数は、1369ページ[10.3%]で、このことからも電話番号等パ
ターンマッチによる情報抽出が有効なことが分かる。
実験には、YAHOO Japan,NTTディレクトリ,Infoseek Japanを始点URLとした13313
ページ(幅優先探索のみを使用して収集したもの)を用いている。
| 電話番号の抽出結果(総ページ数:13313) | |
|---|---|
| マッチパターン | 出現回数 | 
| 0x-xxxx-xxxx | 3522 | 
| 0x[xxxx]xxxx | 145 | 
| [0x]xxxx-xxxx | 52 | 
| 0x,xxxx,xxxx | 126 | 
| 0x(xxxx)xxxx | 709 | 
| (0x)xxxx-xxxx | 258 | 
| 0xーxxxxーxxxx | 47 |