Struktura języka raportów > Wyrażenia regularne

Drukuj

Wyrażenia regularne

Uwagi ogólne

Wyrażenia regularne powstały po to, by móc wyszukać w danym tekście nie tylko konkretne słowo bądź frazę, ale fragment, który można by określić na zasadach ogólniejszych np. dowolną liczbę bądź np. słowo zaczynające się dużą literą itp.

Zamiast używania zwrotu "szukanie wyrażenia regularnego" będzie używany zwrot "dopasowywanie wyrażenia regularnego" gdyż dokładniej opisuje on sposób użycia wyrażenia regularnego. W rzeczywistości mamy bowiem do czynienia z dopasowaniem wzoru jakim jest wyrażenie regularne do przetwarzanego tekstu.

Istnieje wiele konkretnych realizacji wyrażeń regularnych. Najbardziej znane to kilka typów UNIX’owych oraz wyrażenia regularne firmy Microsoft używane w ich produktach takich jak edytory tekstu ASCII bądź programy typu GREP.

Realizacja przedstawiona poniżej miała za punkt wyjścia propozycję firmy Microsoft. Obecna jej wersja jest bardzo rozbudowana i zawiera wiele funkcji niedostępnych w innych typach wyrażeń regularnych.

 

Opis

Wyrażenie regularne definiowane jest zawsze w postaci tekstu ASCII. Jest to rodzaj krótkiego programu, którego instrukcje powstają dzięki specjalnemu znaczeniu nadanemu niektórym znakom ASCII. Dowolny fragment wyrażenia regularnego można objąć nawiasami (..) tworząc "podwyrażenie", które następnie może stać się argumentem dla innego wyrażenia. W poniższym opisie takie "podwyrażenia" prezentowane są w postaci dużej litery X.

Wyrażenie

Opis

/

Znak odwołujący (escape)

Powoduje odwołanie specjalnego znaczenia następnego znaku.

Przykład:

wyrażenie /? dopasowuje w tekście pojedynczy znak ?

wyrażenie // dopasowuje w tekście pojedynczy znak /

?

Jeden znak

Dopasowuje dokładnie jeden dowolny znak. Skrót wyrażenia [%00-%ff]

Przykład:

wyrażenie a?b dopasowuje zarówno tekst axb jak i tekst np. aBb

wyrażenie nie dopasowuje natomiast tekstu ab oraz aaab

*

Dowolny znak (wildcard)

Dopasowuje 0 lub więcej znaków. Skrót wyrażenia ?+

Przykład:

wyrażenie a*b dopasowuje zarówno tekst ab jak i tekst aBb oraz aaab

^

Początek tekstu.

Dopasowanie następuje tylko na początku tekstu.

Przykład:

wyrażenie ^KTO dopasowuje słowo KTO tylko wtedy, gdy znajduje się ono na początku tekstu, nigdy nie dopasuje więc tekstu aKTO

$

Koniec tekstu

Dopasowanie następuje tylko na końcu tekstu.

Przykład:

wyrażenie KTO$ dopasowuje słowo KTO tylko wtedy, gdy znajduje się ono na samym końcu tekstu, nigdy nie dopasuje więc tekstu KTOa

[ klasa ]

Klasa znakowa.

Dopasowuje dokładnie jeden dowolny znak ze znaków należących do klasy. Do określenia zakresu znaków można użyć znaku - (kolejność wg. ASCII)

Przykład:

wyrażenie [a-zA-Z0-9] dopasowuje dowolną literę lub cyfrę

wyrażenie abc dopasowuje znak a lub b lub c

[ ~klasa ]

NIE klasa znakowa.

Dopasowuje dokładnie jeden dowolny znak ze znaków nie należących do klasy. Do określenia zakresu znaków można użyć znaku - (kolejność wg. ASCII)

Przykład:

wyrażenie [~a-zA-Z0-9] dopasowuje wszystkie znaki oprócz liter i cyfr

wyrażenie [~abc] dopasowuje wszystkie znaki oprócz znaków a, b, c

X+

Dopasowanie minimalne

Dopasowuje 0 lub więcej powtórzeń wyrażenia regularnego X.

Przykład:

wyrażenie ba+b dopasowuje baaab, bab i bb

wyrażenie b(a?)+b dopasowuje baxayb, babb i bb

X++

Dopasowanie minimalne plus

Dopasowuje 1 lub więcej powtórzeń wyrażenia regularnego X (skrót wyrażenia XX+).

Przykład:

wyrażenie ba++b dopasowuje baaab, bab ale nie dopasowuje bb

wyrażenie b(a?)++b dopasowuje baxayb, babb ale nie dopasowuje bb

X#

Dopasowanie maksymalne

Dopasowuje 0 lub więcej powtórzeń wyrażenia regularnego X. Bardzo podobne do X+ z wyjątkiem metody dopasowania.

Przykład:

wyrażenie bca+ w tekście bcaaa dopasowuje bc

wyrażenie bca# w tekście bcaaa dopasowuje bcaaa

natomiast zarówno wyrażenie ba+c jak i ba#c dopasowują teksty bc, bac i baaac

X##

Dopasowanie maksymalne plus

Dopasowuje 1 lub więcej powtórzeń wyrażenia regularnego X (skrót wyrażenia XX#). Bardzo podobne do X++ z wyjątkiem metody dopasowania.

Przykład:

wyrażenie bca++ w tekście bcaaa dopasowuje bca

wyrażenie bca## w tekście bcaaa dopasowuje bcaaa

natomiast zarówno wyrażenie ba++c jak i ba##c dopasowują teksty bac i baaac

X1 | .. | Xn

Alternatywa (suma logiczna)

Dopasowuje wyrażenie X1 lub .. lub Xn. Dopasowuje kolejne wyrażenia właśnie w takiej kolejności, przełącza się z Xi na Xi+1 tylko wtedy gdy reszta wyrażenia nie może się dopasować

Przykład:

wyrażenie (a) | (bbb) | (cc)d dopasowuje zarówno ad, bbbd jak i ccd

wyrażenie (abc) | ()d dopasowuje zarówno abcd jak i d

X1 & .. & Xn

Koniunkcja (iloczyn logiczny)

Dopasowanie tego wyrażenia występuje tylko wtedy, gdy wszystkie wyrażenia Xi dopasowują się. O ostatecznym zakresie dopasowania decyduje ostatnie wyrażenie koniunkcji Xn.

Przykład:

w tekście ADCHJKV wyrażenie (*K) & (*C)? dopasowuje ADCH natomiast wyrażenie (*C) & (*K)? dopasowuje ADCHJKV

~X

NIE wyrażenie.

Dopasowanie występuje tylko wtedy gdy wyrażenie X nie może się dopasować.

Przykład:

wyrażenie ^~((IF) | (WHILE))*$ dopasowuje wszystkie teksty nie zaczynające się od słów IF lub WHILE

X^n

Wielokrotność wyrażenia.

Dopasowuje dokładnie n kopii wyrażenia X.

Przykład:

wyrażenie W^4 dopasowuje WWWW

wyrażenie (a?)^3 dopasowuje afaBa5

:n

Pozycja w tekście

Dopasowanie następuje tylko na n-tej pozycji w tekście (liczone od zera).

Przykład:

wyrażenie :4FAT dopasowuje słowo FAT tylko wtedy gdy zaczyna się ono od 5-tego znaku w tekście np. I’m FAT

X1 < > X2

Wyrażenia zbalansowane.

Dopasowanie następuje tylko po natrafieniu na tekst ograniczany zbalansowanymi wyrażeniami regularnymi X1 i X2. X1 musi być różne od X2.

Przykład:

wyrażenie *(/[) < > (/]) dopasowuje w tekście a [ cd [ ] ] [ [ fv ] ] df tekst a [ cd [ ] ]

:litera

Predefiniowane wyrażenie regularne.

Rodzaj makra. Wyrażenie to jest zastępowane przez wyrażenie predefiniowane. Lista predefiniowanych wyrażeń podana jest w tabeli poniżej.

Przykład:

wyrażenie :a rozwijane jest w wyrażenie [ a-z A-Z 0-9 ]

x

Znak x

Dopasowuje znak x. Wszystkie znaki specjalne muszą być poprzedzone znakiem anulującym /.

Przykład:

wyrażenie a//b/*c dopasowuje tekst a/b*c

!x

NIE znak x

Dopasowuje wszystkie znaki różne od x. Wszystkie znaki specjalne muszą być poprzedzone znakiem anulującym /.

Przykład:

wyrażenie !c## w tekście baacac dopasowuje baa

%x

Znak x w postaci heksadecymalnej.

Dopasowuje znak o kodzie ASCII podanym po znaku % jako liczba heksadecymalna z zakresu 00 .. ff.

Przykład:

wyrażenie regularne %2e%3D%411 dopasowuje tekst .=A1 /? dopasowuje w tekście pojedynczy znak ?

wyrażenie regularne [ %80-%ff ] dopasowuje jeden dowolny znak ASCII o kodzie z zakresu od 128 do 255 włącznie

{ ... }

Sekcja - znaczenie specjalne.

Nie dopasowuje niczego. Zapamiętuje natomiast początek i koniec tekstu dopasowanego przez wyrażenie regularne zawarte między nawiasami. W wyrażeniu regularnym można wyspecyfikować do 9 sekcji, dostępnych jako sekcje o numerach od 1 do 9. Domyślnie sekcję o numerze 0 stanowi całe wyrażenie regularne.

-

Kursor - znaczenie specjalne.

Nie dopasowuje niczego. Zapamiętuje natomiast pozycję w tekście dopasowanym przez wyrażenie regularne, w którym został użyty.

$n

Zawartość sekcji n.

Zastosowanie tego wyrażenia ma sens tylko w połączeniu z wcześniejszym użyciem sekcji. Dopasowanie następuje tylko wtedy gdy dopasowywany tekst jest równy tekstowi wcześniej dopasowanemu przez wyrażenie sekcji n.

Przykład:

wyrażenie regularne { [ a-z ] }/=$1 dopasowuje teksty a=a, b=b ... z=z

=

Rozróżnianie dużych i małych liter.

Nie dopasowuje niczego. Służy do przełączania rozróżniania przez wyrażenie regularne dużych i małych liter. Zawsze występuje ze znakiem określającym ściślej rodzaj operacji.

=-

Wyłącza rozróżnianie dużych i małych liter.

=+

Włącza rozróżnianie dużych i małych liter.

==

Przełącza rozróżnianie dużych i małych liter.

 

Predefiniowane wyrażenia regularne:

:litera

rozwinięcie

Opis

:a

[a-zA-Z0-9]

znak alfanumeryczny

:b

([ \t\r\n]#)

"biały" znak

:c

[a-zA-Z]

litera

:d

[0-9]

cyfra

:f

(([~ \"[/]:<!>+=;,.]##)|(..)|.)

 

:h

([0-9a-fA-F]##)

liczba heksadecymalna

:i

([a-zA-Z_$][a-zA-Z0-9_$]#)

 

:n

(+|/-|()([0-9]##.[0-9]#)|([0-9]#.[0-9]##)|([0-9]##))

 

:p

(([a-zA-Z]/:)|()\\|()(:f(.:f)|()\\)#:f(.:f)|())

 

:q

((\"~\"#\")|('~'#'))

 

:r

((/-|())([0-9]##))

 

:w

([a-zA-Z]##)

słowo

:x

([ 0-9A-Za-z]##)

 

:z

([0-9]##)

 

:A

([/-a-zA-Z0-9]##)

 

:B

([ \t\r\n]##)

 

:W

([a-zA-Z_@$][a-zA-Z0-9_@$]#)

 

 

Przypadki niespójności opisu:

Jeśli chce się dopasować znak 1 na drugim miejscu w tekście, wówczas nie można użyć wyrażenia :11 gdyż zostanie to potraktowane jako dopasowanie dwunastego miejsca w tekście (liczone od 0). W takich wypadkach można zastosować wyrażenia :1/1 lub :1(1).

Podobny problem związany z wielokrotnością wyrażenia należy rozwiązać identycznie.

Jeśli po znaku ^ nie występuje liczba jest on traktowany jako początek tekstu, a nie wielokrotność wyrażenia.

Jeśli po znaku $ nie występuje cyfra jest on traktowany jako koniec tekstu, a nie zawartość sekcji wyrażenia.