ウェブページは、ヘッダー、サイドメニュー、コンテンツ、フッターなど様々な要素から成り立ってる場合が多いと思います。
全てがページ内のキーワードと関連が深い場合はいいのですが、広告や、お問い合わせ欄、アクセスマップ、会社概要など、特にサイトのテーマとは関係ないページや関係ない箇所が散財すると思います。
ページ内に広告が表示されてる場合などはサイト内のテーマと関係が薄い場合も多々あると思います。
…
//mailto:が使用されているメールアドレス
preg_match_all(“/mailto:(.+?)”/s”, $html2, $matches);
//mailto:は使用されておらず、@を基準に判別
preg_match_all(‘/[-.w/]+@[-._[:lower:]d]+.[[:lower:]]{2,4}/s’, $html2, $matches);
または、
preg_match_all(‘/[-._a-zA-Z0-9/]+@[-._a-z0-9]+.[a-z]{2,4}/s’, $html2, $matches);
正規表現については、精度の問題もあり、意見が分かれるところだとは思いますが、私の場合は、これで十分だったので、メモとして残しておきます。
この投稿へのコメント
コメントはまだありません。