
Az első hazai nyelvtechnológiai kutatás-fejlesztésre specializálódott vállalkozás, az éppen 20 éve létrehozott, és nyelvhelyességi, szótár- és fordítóprogramjaival ismertté vált MorphoLogic cég egyik alapítója és az 1991-es indulástól kezdve igazgatója. A PPKE Információs Technológiai Karának egyetemi tanára, 2006 óta a kar innovációs dékánhelyettese. Végzettségét tekintve programtervező matematikus, valamint általános és alkalmazott nyelvész, később megszerezte a nyelvtudomány kandidátusa, majd az MTA doktora címet.
Az MTA Szótári Munkabizottságának elnöke, az MTA közgyűlési képviselője, tagja az ELRA nemzetközi nyelvtechnológiai szervezet igazgatóságának, az európai nyelvtechnológia jövőjét alakító META-NET Vision Groupnak és a META Technology Councilnak és számos más tudományos testületnek. Az Európai Közösség számítógépes nyelvfeldolgozással kapcsolatos fórumainak szakértője és gyakori előadója, mintegy 30 hazai és nemzetközi számítógépes nyelvészeti K+F projekt vezetője.
Több mint 120 tudományos publikációja mellett három könyvet is írt az emberi nyelvek számítógépes feldolgozásáról.
Munkásságáért 2000-ben Széchenyi-díjat kapott. További díjai: Kalmár László-díj (1995), Gyúrós Tibor-díj (2002), Brassai Sámuel-díj (2005), Magyar Informatikáért szakmai érem (2005), Az Év Informatikai Oktatója – különdíj (2009), Gábor Dénes-díj (2010).
A megoldáshoz vezető utak: Szabályok és statisztikák?
A nagy mennyiségű szöveges tartalom gyors közreadását a nyomtatás, majd az utóbbi időkben a számítógép és de leginkább az internet tette egyre hatékonyabbá. Ebben a „hatékonyságnövelő feladatban” alakult ki az a szakterület, amit manapság nyelvtechnológiának szokás nevezni. Az informatika és a nyelvészet találkozása azt célozza meg, hogy az egyre hatalmasabb szövegmennyiséget intelligensen kereshetővé, fordíthatóvá, más intelligens alkalmazások által még jobban feldolgozhatóvá lehessen tenni.
A megoldáshoz vezető út korábban egyértelműnek látszott: alakítsuk át a nyelvészek tudását a gép számára, és máris kész vagyunk. Igen, de a nyelvi leírások a számítógépes korszak előtt kizárólag embereknek készültek, azaz a befogadó intelligenciáját is „belekalkulálták” a nyelvészeti leírásokba. Ezért azokat a gépeket, amelyeken az ilyesféle programok futottak, egyre intelligensebbé kellett tenni, újabb és újabb, a nyelvet és a minket körülvevő világot leíró szabályok egyenkénti hozzáadásával. Ez a munka időigényesnek bizonyult, a nyelvészek pedig – éppen alaposságuk miatt – lassúnak és drágának. Így az elmúlt években kialakult ennek a megoldásnak egy alternatívája: a statisztikai közelítés. Itt már nincs szükség a nyelvész körmönfont leírásaira, hiszen a szövegek maguk is tartalmazzák azokat a nyelvi fordulatokat, amiket a nyelvész leírna. Sőt, a teljes szövegkörnyezet azonnal tanulmányozható, elemezhető, vagyis: ha minél nagyobb mennyiségű szöveget sikerül feldolgozni, abból az igényelt nyelvészeti tudást az intelligens program fogja kiválasztani magának. Igen ám, de nem minden feladathoz van megfelelő számú mintát tartalmazó szövegmennyiség: például litvánról magyarra ugyanúgy kellene fordítani, mint angolról spanyolra – de míg ez utóbbiból rengeteg fordítás áll a rendelkezésünkre, az előbbiből talán soha nem is lesz elegendő.
Akkor az „intelligencia”, amit a gépnek tulajdonítunk, például szövegek fordításakor, pusztán csak mennyiségi kérdés? Vagy van még valami, amit itt elhallgattunk? Ezekről a kérdésekről, azaz az internetes világ intelligens nyelvi feldolgozásairól szól az előadás.