Tuesday, October 30, 2007

മലയാളം യൂണികോഡ് റെഗുലര്‍ എക്സ്പ്റഷന്‍സ്

അക്ഷരങ്ങളേയും വാക്കുകളേയും വേര്‍തിരിക്കാനുപകരിക്കുന്ന കമ്പ്യൂട്ടിങ്ങ് വാക്യത്തെ ആണ് റെഗുലര്‍ എക്സ്പ്റഷന്‍ എന്ന് പറയുന്നതു. യൂണികോഡ് അക്ഷരങ്ങള്‍ കൈകാര്യം ചെയ്യുന്നതിനായീ യൂണികോഡ് കണ്‍സോര്‍ഷ്യം ഒരു റെഗുലര്‍ എക്സ്പ്റഷന്‍സ് സ്റ്റാന്ഡേര്ഡ് പ്രസിദ്ധപ്പെടുത്തിയിട്ടുണ്ട് . ആ ഡോക്യുമെന്റ് പ്രകാരം മലയാളം അക്ഷരങ്ങള്‍ പിരിക്കാന്‍ താഴെ കൊടുത്തിരിക്കുന്ന യൂണികോഡ് റെഗുലര്‍ എക്സ്പ്റഷന്‍ (unicode regular expression) ഉപയോഗിക്കാം

\p{L}\p{M}*്\p{L}\p{M}*\p{C}*|\p{L}\p{M}*\p{C}*

മേല്‍ പറഞ്ഞ വാക്യം ഉപയോഗിച്ചു "സല്‍ക്കര്‍മ്മം" എന്ന വാക്കിനെ പിരിച്ചെഴുതിയാല്‍ ഇങ്ങനെയിരിക്കും : "സ" "ല്‍" "ക്ക" "ര്‍" "മ്മം"

ഇതേ വക്കുപയോകിച്ചു ചില ഉദാഹരണങ്ങള്‍ :

\p{L} - സ ല ക ക ര മ മ
\p{M} - ് ് ് ് ം
\p{L}\p{M} - ല് ക് ര് മ് മം
\p{L}\p{M}* - സ ല് ക് ക ര് മ് മം
\p{L}\p{M}*\p{C}* - സ ല്‍ ക് ക ര്‍ മ് മം


മലയാളം യൂണികോഡിനെ പറ്റി കൂടുതലറിയാന്‍ ഇവിടെ നോക്കുക

No comments:

വായന