[Thread Prev][Thread Next]   >Date Index >Thread Index

Regex Frage && non-whitespace character

Stefan Bauer - Wed Dec 12 19:40:01 2007

Hallo Liste,

ich versuche gerade aus einer Webseite die folgende Beschreibung zu
extrahieren:

	<h2>A high-performance mail transport agent</h2>
	<p>
Postfix is Wietse Venema's mail transport agent that started life as
an alternative to the widely-used Sendmail program.  Postfix attempts
to be fast, easy to administer, and secure, while at the same time
being sendmail compatible enough to not upset existing users. Thus,
the outside has a sendmail-ish flavor, but the inside is completely
different.

Am Ende jeder Zeile befindet sich ein whitespace-Zeichen.

Meine Regex fängt an mit m/"pdesc">\s+<h2>(.*)<\/h2>\s+<p>\s+(.*)/g

Nun tut sich das Problem auf, dass die Erkennung ab dem whitespace
endet, was ich nicht will.

$1 + $2 lauten bis dato in etwa:

A high-performance mail transport agentPostfix is Wietse Venema's mail
transport agent that started life as an

Ich starre gerade auf meine Perl-Regex-Tabelle aber werde nicht ganz
schlau. Was hab ich vergessen?

Gruß

stefan


Next: