To register a new account on this wiki, contact us
സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ്/NLP: Difference between revisions
Created a new page of NLP R&D in Malayalam |
No edit summary |
||
| (4 intermediate revisions by 2 users not shown) | |||
| Line 1: | Line 1: | ||
Goals | |||
1)Build an open source corpus for reasearch purposes | |||
2)Build language resources that would help the processing resources | |||
3)Build processing resources | |||
Can the rest of the interested people add their goal and area where people are planning to contribute .. Deepak ? Jagan? | |||
= Malayalam Natural Language Processing: Research and Development = | = Malayalam Natural Language Processing: Research and Development = | ||
ചില വിവരങ്ങള് ചേര്ക്കുന്നു. | |||
==കോര്പ്പസിനേയും NLPയെയും പറ്റി കുറച്ചുവിവരങ്ങളും ലക്ഷ്യങ്ങളും== | |||
ഈ വിഷയത്തെപ്പറ്റി പ്രാഥമിക വിവരങ്ങള് നല്കുന്ന ഒരു പോസ്റ്റ് കൂടുതല് പേര്ക്ക് ഇത്തരം കാര്യങ്ങള് മനസ്സിലാക്കാന് സഹായിക്കും എന്നു കരുതുന്നു. എന്താണ് ഒരു corporaയുടെ ആവശ്യകത എന്നും, നമ്മുടെ ലക്ഷ്യം എന്താണെന്നും വിശദീകരിക്കാന് ശ്രമിക്കുന്നു. | |||
ആദ്യമായി NLP ക്ക് corporaയുടെ ആവശ്യം എന്തിനാണെന്നു വിശദീകരിക്കാന് ശ്രമിക്കാം, | |||
കമ്പ്യൂട്ടറില് natural language അല്ലെങ്കില് മനുഷ്യഭാഷ കൈകാര്യം ചെയ്യാന് വേണ്ടി രചിക്കുന്ന ഏതു പ്രയോഗവും അതിന്റെ ഉപയോഗക്ഷമത തെളിയിച്ചിരിക്കണം. അത് പരീക്ഷിക്കാന് വേണ്ടി ഒരു standard set വേണം. ഈ സ്റ്റാന്ഡേര്ഡ് സെറ്റിന്റെ റോളാണ് corpora ചെയ്യുന്നത്. പല മലയാളം പ്രയോഗങ്ങളും ഇത്തരം ഒരു സംവിധാനമില്ലാത്തതിന്റെ തിക്തഫലം അനിഭവിക്കുന്നുണ്ട്. | |||
===കോര്പ്പസ്(corpora)=== | |||
ഇത്തരം ഒരു സെറ്റ് നിര്മിക്കുക എന്നു പറയുമ്പോള് അത് സാമാന്യത്തില് എല്ലാ NLP അപ്ലിക്കേഷനും പരീക്ഷിക്കാനും വിലയിരുത്താനും ഉള്ളതോ, അല്ലെങ്കില് specialized ആയി ഓരോ വിഭാഗത്തിനും പ്രത്യേകമായോ നിര്മിക്കാം. ഉദാഹരണത്തിന്, സ്പീച്ച് സംബന്ധമായി ഉള്ള പ്രയോഗങ്ങളെ വിലയിരുത്താനായുള്ള കോര്പ്പസില് ഓരോ അക്ഷരങ്ങളെയും വാക്കുകളെയും വരികളെയും ചിലപ്പോള് ഖണ്ഡികകളേയും വരെ അതിന്റെ ശരിക്കുള്ള സംഭാഷണവുമായി(ശബ്ധവുമായി) ബന്ധിപ്പിച്ചിരിക്കും. ഇത്തരം ഒരു കോര്പ്പസ് ഉപയോഗിച്ച് speech recognition അല്ലെങ്കില് text to speech conversion അല്ഗോരിതങ്ങളുടെ ക്ഷമത കണക്കാക്കാം. | |||
===നമ്മുടെ വെല്ലുവിളികള്=== | |||
ഇത് പക്ഷെ specialized കോര്പ്പസാണ്. നമ്മള് നിര്മിക്കാനുദ്ദേശിക്കുന്നത് ഒരു generic അല്ലെങ്കില് പൊതു കോര്പ്പസാണ്. അതില് search retrieval extraction, character recognition, hand writing recognition തുടങ്ങി ഭാഷാ കമ്പ്യൂട്ടിങ്ങിന്റെ സമസ്തമേഖലകളിലും മലയാളത്തിനു വേണ്ടി നിര്മ്മിക്കുന്ന അല്ഗോരിതങ്ങള് പരീക്ഷിക്കാനും ക്ഷമത വര്ദ്ധിപ്പിക്കാനും മാത്രമുള്ള കണ്ടന്റ് ഉണ്ടാവണം. | |||
അതായത് ഡിജിറ്റല് രൂപത്തിലുള്ള ഭാഷാ കണ്ടന്റും അതിന്റെ corresponding images, speech ഇതെല്ലാം കോര്പ്പസിലുണ്ടാവണം. ദൌത്യം ശ്രമകരമാണ്, വലുതും അതു കൊണ്ടുതന്നെ വ്യക്തമായ പ്ലാനിങ്ങോടുകൂടിവേണം നീങ്ങാന്. ഡിജിറ്റൈസ് ചെയ്ത കണ്ടെന്റ് കിറുകൃത്യമാവണം, എങ്കിലേ ലക്ഷ്യം കൈവരിക്കാനാവൂ. അതു പോലെത്തന്നെ, ഇത്തരത്തില് ഉണ്ടാക്കിയ ശേഖരം എല്ലാര്ക്കും ഉപകാരപ്രദമാവുന്നരീതിയില് സൂക്ഷിക്കുകയും accessന് വേണ്ടി APIകള് നിര്മ്മിക്കുക എന്നതും പരമപ്രധാനമാണ്. | |||
എല്ലാവരും അഭിപ്രായങ്ങള് എഴുതുക. കൃത്യമായ ലക്ഷ്യ നിര്വചനത്തിനും തയ്യാറെടുപ്പിനും ശേഷം ജോലികള് തുടങ്ങാം, ഈ രംഗത്ത് കൂടുതല് അനുഭവ സമ്പത്തുള്ളവര് പങ്കു വയ്ക്കുക..... | |||
Add the objectives, goals, milestones etc here | Add the objectives, goals, milestones etc here | ||
===ചില ലിങ്കുകള്=== | |||
* [http://www.sil.org/linguistics/computing.html Linguistic Computing Links] | |||
* [http://www.sil.org/linguistics/etext.html Linguistic Data Links] | |||
എന്റെ കമ്പ്യൂട്ടറിന് എന്റെ ഭാഷ | എന്റെ കമ്പ്യൂട്ടറിന് എന്റെ ഭാഷ | ||
ഒരു സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് സംരംഭം | ഒരു സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് സംരംഭം | ||
Latest revision as of 04:25, 17 October 2007
Goals 1)Build an open source corpus for reasearch purposes
2)Build language resources that would help the processing resources
3)Build processing resources
Can the rest of the interested people add their goal and area where people are planning to contribute .. Deepak ? Jagan?
Malayalam Natural Language Processing: Research and Development
ചില വിവരങ്ങള് ചേര്ക്കുന്നു.
കോര്പ്പസിനേയും NLPയെയും പറ്റി കുറച്ചുവിവരങ്ങളും ലക്ഷ്യങ്ങളും
ഈ വിഷയത്തെപ്പറ്റി പ്രാഥമിക വിവരങ്ങള് നല്കുന്ന ഒരു പോസ്റ്റ് കൂടുതല് പേര്ക്ക് ഇത്തരം കാര്യങ്ങള് മനസ്സിലാക്കാന് സഹായിക്കും എന്നു കരുതുന്നു. എന്താണ് ഒരു corporaയുടെ ആവശ്യകത എന്നും, നമ്മുടെ ലക്ഷ്യം എന്താണെന്നും വിശദീകരിക്കാന് ശ്രമിക്കുന്നു.
ആദ്യമായി NLP ക്ക് corporaയുടെ ആവശ്യം എന്തിനാണെന്നു വിശദീകരിക്കാന് ശ്രമിക്കാം,
കമ്പ്യൂട്ടറില് natural language അല്ലെങ്കില് മനുഷ്യഭാഷ കൈകാര്യം ചെയ്യാന് വേണ്ടി രചിക്കുന്ന ഏതു പ്രയോഗവും അതിന്റെ ഉപയോഗക്ഷമത തെളിയിച്ചിരിക്കണം. അത് പരീക്ഷിക്കാന് വേണ്ടി ഒരു standard set വേണം. ഈ സ്റ്റാന്ഡേര്ഡ് സെറ്റിന്റെ റോളാണ് corpora ചെയ്യുന്നത്. പല മലയാളം പ്രയോഗങ്ങളും ഇത്തരം ഒരു സംവിധാനമില്ലാത്തതിന്റെ തിക്തഫലം അനിഭവിക്കുന്നുണ്ട്.
കോര്പ്പസ്(corpora)
ഇത്തരം ഒരു സെറ്റ് നിര്മിക്കുക എന്നു പറയുമ്പോള് അത് സാമാന്യത്തില് എല്ലാ NLP അപ്ലിക്കേഷനും പരീക്ഷിക്കാനും വിലയിരുത്താനും ഉള്ളതോ, അല്ലെങ്കില് specialized ആയി ഓരോ വിഭാഗത്തിനും പ്രത്യേകമായോ നിര്മിക്കാം. ഉദാഹരണത്തിന്, സ്പീച്ച് സംബന്ധമായി ഉള്ള പ്രയോഗങ്ങളെ വിലയിരുത്താനായുള്ള കോര്പ്പസില് ഓരോ അക്ഷരങ്ങളെയും വാക്കുകളെയും വരികളെയും ചിലപ്പോള് ഖണ്ഡികകളേയും വരെ അതിന്റെ ശരിക്കുള്ള സംഭാഷണവുമായി(ശബ്ധവുമായി) ബന്ധിപ്പിച്ചിരിക്കും. ഇത്തരം ഒരു കോര്പ്പസ് ഉപയോഗിച്ച് speech recognition അല്ലെങ്കില് text to speech conversion അല്ഗോരിതങ്ങളുടെ ക്ഷമത കണക്കാക്കാം.
നമ്മുടെ വെല്ലുവിളികള്
ഇത് പക്ഷെ specialized കോര്പ്പസാണ്. നമ്മള് നിര്മിക്കാനുദ്ദേശിക്കുന്നത് ഒരു generic അല്ലെങ്കില് പൊതു കോര്പ്പസാണ്. അതില് search retrieval extraction, character recognition, hand writing recognition തുടങ്ങി ഭാഷാ കമ്പ്യൂട്ടിങ്ങിന്റെ സമസ്തമേഖലകളിലും മലയാളത്തിനു വേണ്ടി നിര്മ്മിക്കുന്ന അല്ഗോരിതങ്ങള് പരീക്ഷിക്കാനും ക്ഷമത വര്ദ്ധിപ്പിക്കാനും മാത്രമുള്ള കണ്ടന്റ് ഉണ്ടാവണം.
അതായത് ഡിജിറ്റല് രൂപത്തിലുള്ള ഭാഷാ കണ്ടന്റും അതിന്റെ corresponding images, speech ഇതെല്ലാം കോര്പ്പസിലുണ്ടാവണം. ദൌത്യം ശ്രമകരമാണ്, വലുതും അതു കൊണ്ടുതന്നെ വ്യക്തമായ പ്ലാനിങ്ങോടുകൂടിവേണം നീങ്ങാന്. ഡിജിറ്റൈസ് ചെയ്ത കണ്ടെന്റ് കിറുകൃത്യമാവണം, എങ്കിലേ ലക്ഷ്യം കൈവരിക്കാനാവൂ. അതു പോലെത്തന്നെ, ഇത്തരത്തില് ഉണ്ടാക്കിയ ശേഖരം എല്ലാര്ക്കും ഉപകാരപ്രദമാവുന്നരീതിയില് സൂക്ഷിക്കുകയും accessന് വേണ്ടി APIകള് നിര്മ്മിക്കുക എന്നതും പരമപ്രധാനമാണ്.
എല്ലാവരും അഭിപ്രായങ്ങള് എഴുതുക. കൃത്യമായ ലക്ഷ്യ നിര്വചനത്തിനും തയ്യാറെടുപ്പിനും ശേഷം ജോലികള് തുടങ്ങാം, ഈ രംഗത്ത് കൂടുതല് അനുഭവ സമ്പത്തുള്ളവര് പങ്കു വയ്ക്കുക.....
Add the objectives, goals, milestones etc here
ചില ലിങ്കുകള്
എന്റെ കമ്പ്യൂട്ടറിന് എന്റെ ഭാഷ
ഒരു സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് സംരംഭം