Wyrażenia regularne - Język raportów Symfonia AM Basic

Uwagi ogólne

Wyrażenia regularne powstały po to, by móc wyszukać w danym tekście nie tylko konkretne słowo bądź frazę, ale fragment, który można by określić na zasadach ogólniejszych np. dowolną liczbę bądź np. słowo zaczynające się dużą literą itp.

Zamiast używania zwrotu "szukanie wyrażenia regularnego" będzie używany zwrot "dopasowywanie wyrażenia regularnego" gdyż dokładniej opisuje on sposób użycia wyrażenia regularnego. W rzeczywistości mamy bowiem do czynienia z dopasowaniem wzoru jakim jest wyrażenie regularne do przetwarzanego tekstu.

Istnieje wiele konkretnych realizacji wyrażeń regularnych. Najbardziej znane to kilka typów UNIX’owych oraz wyrażenia regularne firmy Microsoft używane w ich produktach takich jak edytory tekstu ASCII bądź programy typu GREP.

Realizacja przedstawiona poniżej miała za punkt wyjścia propozycję firmy Microsoft. Obecna jej wersja jest bardzo rozbudowana i zawiera wiele funkcji niedostępnych w innych typach wyrażeń regularnych.

Opis

Wyrażenie regularne definiowane jest zawsze w postaci tekstu ASCII. Jest to rodzaj krótkiego programu, którego instrukcje powstają dzięki specjalnemu znaczeniu nadanemu niektórym znakom ASCII. Dowolny fragment wyrażenia regularnego można objąć nawiasami (..) tworząc "podwyrażenie", które następnie może stać się argumentem dla innego wyrażenia. W poniższym opisie takie "podwyrażenia" prezentowane są w postaci dużej litery X.

Wyrażenie	Opis
/	Znak odwołujący (escape) Powoduje odwołanie specjalnego znaczenia następnego znaku. Przykład: wyrażenie /? dopasowuje w tekście pojedynczy znak ? wyrażenie // dopasowuje w tekście pojedynczy znak /
?	Jeden znak Dopasowuje dokładnie jeden dowolny znak. Skrót wyrażenia [%00-%ff] Przykład: wyrażenie a?b dopasowuje zarówno tekst axb jak i tekst np. aBb wyrażenie nie dopasowuje natomiast tekstu ab oraz aaab
*	Dowolny znak (wildcard) Dopasowuje 0 lub więcej znaków. Skrót wyrażenia ?+ Przykład: wyrażenie a*b dopasowuje zarówno tekst ab jak i tekst aBb oraz aaab
^	Początek tekstu. Dopasowanie następuje tylko na początku tekstu. Przykład: wyrażenie ^KTO dopasowuje słowo KTO tylko wtedy, gdy znajduje się ono na początku tekstu, nigdy nie dopasuje więc tekstu aKTO
$	Koniec tekstu Dopasowanie następuje tylko na końcu tekstu. Przykład: wyrażenie KTO$ dopasowuje słowo KTO tylko wtedy, gdy znajduje się ono na samym końcu tekstu, nigdy nie dopasuje więc tekstu KTOa
[ klasa ]	Klasa znakowa. Dopasowuje dokładnie jeden dowolny znak ze znaków należących do klasy. Do określenia zakresu znaków można użyć znaku - (kolejność wg. ASCII) Przykład: wyrażenie [a-zA-Z0-9] dopasowuje dowolną literę lub cyfrę wyrażenie abc dopasowuje znak a lub b lub c
[ ~klasa ]	NIE klasa znakowa. Dopasowuje dokładnie jeden dowolny znak ze znaków nie należących do klasy. Do określenia zakresu znaków można użyć znaku - (kolejność wg. ASCII) Przykład: wyrażenie [~a-zA-Z0-9] dopasowuje wszystkie znaki oprócz liter i cyfr wyrażenie [~abc] dopasowuje wszystkie znaki oprócz znaków a, b, c
X+	Dopasowanie minimalne Dopasowuje 0 lub więcej powtórzeń wyrażenia regularnego X. Przykład: wyrażenie ba+b dopasowuje baaab, bab i bb wyrażenie b(a?)+b dopasowuje baxayb, babb i bb
X++	Dopasowanie minimalne plus Dopasowuje 1 lub więcej powtórzeń wyrażenia regularnego X (skrót wyrażenia XX+). Przykład: wyrażenie ba++b dopasowuje baaab, bab ale nie dopasowuje bb wyrażenie b(a?)++b dopasowuje baxayb, babb ale nie dopasowuje bb
X#	Dopasowanie maksymalne Dopasowuje 0 lub więcej powtórzeń wyrażenia regularnego X. Bardzo podobne do X+ z wyjątkiem metody dopasowania. Przykład: wyrażenie bca+ w tekście bcaaa dopasowuje bc wyrażenie bca# w tekście bcaaa dopasowuje bcaaa natomiast zarówno wyrażenie ba+c jak i ba#c dopasowują teksty bc, bac i baaac
X##	Dopasowanie maksymalne plus Dopasowuje 1 lub więcej powtórzeń wyrażenia regularnego X (skrót wyrażenia XX#). Bardzo podobne do X++ z wyjątkiem metody dopasowania. Przykład: wyrażenie bca++ w tekście bcaaa dopasowuje bca wyrażenie bca## w tekście bcaaa dopasowuje bcaaa natomiast zarówno wyrażenie ba++c jak i ba##c dopasowują teksty bac i baaac
X1 \| .. \| Xn	Alternatywa (suma logiczna) Dopasowuje wyrażenie X1 lub .. lub Xn. Dopasowuje kolejne wyrażenia właśnie w takiej kolejności, przełącza się z Xi na Xi+1 tylko wtedy gdy reszta wyrażenia nie może się dopasować Przykład: wyrażenie (a) \| (bbb) \| (cc)d dopasowuje zarówno ad, bbbd jak i ccd wyrażenie (abc) \| ()d dopasowuje zarówno abcd jak i d
X1 & .. & Xn	Koniunkcja (iloczyn logiczny) Dopasowanie tego wyrażenia występuje tylko wtedy, gdy wszystkie wyrażenia Xi dopasowują się. O ostatecznym zakresie dopasowania decyduje ostatnie wyrażenie koniunkcji Xn. Przykład: w tekście ADCHJKV wyrażenie (K) & (C)? dopasowuje ADCH natomiast wyrażenie (C) & (K)? dopasowuje ADCHJKV
~X	NIE wyrażenie. Dopasowanie występuje tylko wtedy gdy wyrażenie X nie może się dopasować. Przykład: wyrażenie ^~((IF) \| (WHILE))*$ dopasowuje wszystkie teksty nie zaczynające się od słów IF lub WHILE
X^n	Wielokrotność wyrażenia. Dopasowuje dokładnie n kopii wyrażenia X. Przykład: wyrażenie W^4 dopasowuje WWWW wyrażenie (a?)^3 dopasowuje afaBa5
:n	Pozycja w tekście Dopasowanie następuje tylko na n-tej pozycji w tekście (liczone od zera). Przykład: wyrażenie :4FAT dopasowuje słowo FAT tylko wtedy gdy zaczyna się ono od 5-tego znaku w tekście np. I’m FAT
X1 < > X2	Wyrażenia zbalansowane. Dopasowanie następuje tylko po natrafieniu na tekst ograniczany zbalansowanymi wyrażeniami regularnymi X1 i X2. X1 musi być różne od X2. Przykład: wyrażenie *(/[) < > (/]) dopasowuje w tekście a [ cd [ ] ] [ [ fv ] ] df tekst a [ cd [ ] ]
:litera	Predefiniowane wyrażenie regularne. Rodzaj makra. Wyrażenie to jest zastępowane przez wyrażenie predefiniowane. Lista predefiniowanych wyrażeń podana jest w tabeli poniżej. Przykład: wyrażenie :a rozwijane jest w wyrażenie [ a-z A-Z 0-9 ]
x	Znak x Dopasowuje znak x. Wszystkie znaki specjalne muszą być poprzedzone znakiem anulującym /. Przykład: wyrażenie a//b/c dopasowuje tekst a/bc
!x	NIE znak x Dopasowuje wszystkie znaki różne od x. Wszystkie znaki specjalne muszą być poprzedzone znakiem anulującym /. Przykład: wyrażenie !c## w tekście baacac dopasowuje baa
%x	Znak x w postaci heksadecymalnej. Dopasowuje znak o kodzie ASCII podanym po znaku % jako liczba heksadecymalna z zakresu 00 .. ff. Przykład: wyrażenie regularne %2e%3D%411 dopasowuje tekst .=A1 /? dopasowuje w tekście pojedynczy znak ? wyrażenie regularne [ %80-%ff ] dopasowuje jeden dowolny znak ASCII o kodzie z zakresu od 128 do 255 włącznie
{ ... }	Sekcja - znaczenie specjalne. Nie dopasowuje niczego. Zapamiętuje natomiast początek i koniec tekstu dopasowanego przez wyrażenie regularne zawarte między nawiasami. W wyrażeniu regularnym można wyspecyfikować do 9 sekcji, dostępnych jako sekcje o numerach od 1 do 9. Domyślnie sekcję o numerze 0 stanowi całe wyrażenie regularne.
-	Kursor - znaczenie specjalne. Nie dopasowuje niczego. Zapamiętuje natomiast pozycję w tekście dopasowanym przez wyrażenie regularne, w którym został użyty.
$n	Zawartość sekcji n. Zastosowanie tego wyrażenia ma sens tylko w połączeniu z wcześniejszym użyciem sekcji. Dopasowanie następuje tylko wtedy gdy dopasowywany tekst jest równy tekstowi wcześniej dopasowanemu przez wyrażenie sekcji n. Przykład: wyrażenie regularne { [ a-z ] }/=$1 dopasowuje teksty a=a, b=b ... z=z
=	Rozróżnianie dużych i małych liter. Nie dopasowuje niczego. Służy do przełączania rozróżniania przez wyrażenie regularne dużych i małych liter. Zawsze występuje ze znakiem określającym ściślej rodzaj operacji.
=-	Wyłącza rozróżnianie dużych i małych liter.
=+	Włącza rozróżnianie dużych i małych liter.
==	Przełącza rozróżnianie dużych i małych liter.

Predefiniowane wyrażenia regularne:

:litera	rozwinięcie	Opis
:a	[a-zA-Z0-9]	znak alfanumeryczny
:b	([ \t\r\n]#)	"biały" znak
:c	[a-zA-Z]	litera
:d	[0-9]	cyfra
:f	(([~ \"[/]:<!>+=;,.]##)\|(..)\|.)
:h	([0-9a-fA-F]##)	liczba heksadecymalna
:i	([a-zA-Z_$][a-zA-Z0-9_$]#)
:n	(+\|/-\|()([0-9]##.[0-9]#)\|([0-9]#.[0-9]##)\|([0-9]##))
:p	(([a-zA-Z]/:)\|()\\\|()(:f(.:f)\|()\\)#:f(.:f)\|())
:q	((\"~\"#\")\|('~'#'))
:r	((/-\|())([0-9]##))
:w	([a-zA-Z]##)	słowo
:x	([ 0-9A-Za-z]##)
:z	([0-9]##)
:A	([/-a-zA-Z0-9]##)
:B	([ \t\r\n]##)
:W	([a-zA-Z_@$][a-zA-Z0-9_@$]#)

Przypadki niespójności opisu:

Jeśli chce się dopasować znak 1 na drugim miejscu w tekście, wówczas nie można użyć wyrażenia :11 gdyż zostanie to potraktowane jako dopasowanie dwunastego miejsca w tekście (liczone od 0). W takich wypadkach można zastosować wyrażenia :1/1 lub :1(1).

Podobny problem związany z wielokrotnością wyrażenia należy rozwiązać identycznie.

Jeśli po znaku ^ nie występuje liczba jest on traktowany jako początek tekstu, a nie wielokrotność wyrażenia.

Jeśli po znaku $ nie występuje cyfra jest on traktowany jako koniec tekstu, a nie zawartość sekcji wyrażenia.