[php-konf] Tekstu kasybos metodai%%^*^%*(^*#%^^^^^^^^^^^^^^^^^^$@#^^^^^^^^^^$^%&&*^%(((&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
From: Dizaineris (dizaineris@freemail.lt)
Date: 2004-06-16 02:42:04
Parengiamai apdorotas teksto rezultatas yra ivertintas terminu vektorius kiekvienam dokumentui. Skaitmeninis reprezentavimas gali buti naudojamas konkreciuose ´iniu atradimo tekstuose arba ¸iniu kasybos etapuose. Gerai ¸inomi duomenu kasybos metodai, tokie kaip klasifikavimas, asocijavimas ir grupavimas, yra naudojami ir tekstu kasybos procesuose. Taip pat galima taikyti specialu tekstu apibendrinimo metoda.
· Klasifikavimas: klasifikavimo metodas naudojamas pa¸ymeti/pavadinti/priskirti dokumentus tam tikroms i¨ anksto numatytoms kategorijoms. Klasifikavimas yra pri¸iurimas mokymosi procesas. Jame klasifikavimas yra paremtas priskiriant mokymo rinkiniu dokumentus. Tekstu klasifikavimo metodai gali apimti sprendimu priemimo med¸ius, neuroninius tinklus, taisykliu indukcija, naive Bayes ir palaikymo vektoriu ma¨inas. Klasifikavimas naudojamas pav. informacijos i¨skyrime kad klasifikuoti dokumentus remiantis ju turiniu, kad butu galima juos efektyviai i¨skirti.
· Grupavimas (clustering): grupavimo metodas yra naudojamas dokumentu grupavimui i dokumentu grupes. Vienos grupes dokumentai yra pana¨us vienas i kita. O skirtingose grupese esantys dokumentai yra nepana¨us. Grupavimas paprastai pasiekiamas nepri¸iurimo mokymo proceso metu, kai norima grupe nera ¸inoma i¨ anksto. Pati sudetingiausia grupavimo u¸duotis, yra pasirinkti gerus dokumentu pana¨umo matavimo rodiklius. Rodiklius kurie yra naudojami ivertinant konkretaus grupavimo efektyvuma, tam kad pasirinkti geriausia grupavima. Grupavimas yra naudojamas informacijos i¨skyrime tvarkant dokumentu rinkinius. Taip pat galima naudoti filtruojant informacija: jei dokumentas sugrupuotas kartu su dokumentais kurie yra idomus konkreciam vartotojui, tai galima manyti kad ir pastarasis bus jam idomus. Labai pana¨iu budu grupavimas gali buti naudojamas paskirstant informacija. Grupavimas gali buti naudojamas ir ¸iniu i¨traukimui: didelio dokumentu skaiciaus grupavimas esant kiekvienos grupes trumpam apra¨ymui, gali suteikti
galimybe greitai susipa¸inti su dokumentu rinkinio struktura ir turiniu.
· Asociacijos: asociaciju metodas yra naudojamas atpa¸istant terminu naudojimo dokumentuose modelius. Naudojant asociaciju metodus, galima atskleisti kuris elementas sutinkamas da¸niau nei tikimasi (remiantis ju individualiu pasirodymu). Tai rodo sary¨i tarp tokiu elementu. Asociacijos pagrinde yra naudojamos i¨skiriant ¸inias. PVZ. asociacijos gali buti panaudotos nustatyti naudojamu terminu pasikeitima laiko atkarpoje. Tai atliekama lyginant dokumentu rinkiniu asociaciju rezultatus skirtingais laiko momentais.
· Apibendrinimas: yra specifine tekstu kasybos technologija. Naudojama pateikiant ilgu dokumentu glaustas ir prasmingas ap¸valgas. ¦i technologija gali buti naudojama informacijos i¨skyrime: vartotojas pirmiau gali perskaityti apibendrinima, ir jei susidomes, gali pasinaudoti visu dokumentu. Taip pat galima naudoti ¸iniu i¨skyrimui, kadangi apibendrinimas pateikia ¸inias kurioms gauti nebutina skaityti viso dokumento.