[ Pobierz całość w formacie PDF ]
.m), przy czym te podgrupy stanowią pewne grupy dokumentów podobnych.Każda utowrzona grupa Xi składa się z reprezentanta Ci , który jest nazywany centroidem i ze zbioru obiektów (dokumentów) należących do tej grupy.W miejsce centoida (Ci) może występwać profil grupy Pi.Xi = (Ci, {tXi}).Centroid jest pewnym zbiorem pojęć (wykorzystywany w algorytmie Rocchia), a profil jest jego odpowiednikiem (kodem) numerycznym (ewentualnie numerem grupy), tworzonym w grupowaniu algorytmem Doyle'a.Istnieje wiele algorytmów grupowania, przy czym najbardziej popularne i najczęściej używane są dwa: algorytm Rocchia i algorytm Doyle'a.W algorytmie Rocchia (jak już wcześniej wspomniano) reprezentatem grupy jest centroid, zaś w algorytmie Doyle'a reprezentatem grupy jest profil.Proces zakładania kartoteki wyszukiwawczej polega na przeprowadzeniu algorytmu grupowania dokumentów jedną z dwóch powyższych metod.Po założeniu kartoteki wyszukiwawczej proces wyszukiwania może być przeprowadzony metodą sekwencyjną lub metodą strukturalną.Metoda strukturalna jest orginalną metodą Saltona (metoda wyszukiwania Saltona).ZAKŁADANIE KARTOTEKI WYSZUKIWAWCZEJAlgorytm Rocchia (algorytm wiązania dokumentów w grupy)lSpośród wszystki dokumentów niezwiązanych wybieramy dokument, ktory stanowi przypuszczalne centrum grupy i obliczamy współczynnik korelacji tego dokumentu ze wszystkimi dokumentami tego zbioru.llWybrany dokument poddajemy testowi gęstości.Test ten mówi, że co najmniej N1 dokumentów musi mieć współczynnik korelacji z wybranym dokumentem większy bądź równy od założonego parametru p1 i co najmniej N2 dokumentów musi mieć współczynnik korelacji z wybranym dokumentem większy bądź równy od założonego parametru p2, gdzie spełnione są następujące warunki: N1 ≥ p1 N2 ≥ p2 p2 > p1 N2 < N1.Test ten gwarantuje, że dokumenty z brzegu grup nie będą wybrane jako centrum.llJeżeli wybrany dokument przeszedł test gęstości - został uznany jako centrum grupy, to na podstawie rozpiętości granic grupy i rozkładów współczynnika korelacji określa się wartość progową współczynnika korelacji pmin.pmin będzie równe p1 (pmin = p1) jeśli mniej dokumentów niż wynosi minimalny rozmiar grupy ma współczynnik korelacji większy od p1.W każdym innym przypadku pmin wybiera się jako współczynnik korelacji dokumentu, przy ktorym nastąpiła największa różnica pomiędzy kolejnymi współczynnikami korelacji dokumentów sąsiadujących z grupą maksymalną.Liczba dokumentów w grupie minimalnej jest określana jako M1, zaś grupy maksymalnej jako M2.llTworzymy wektor centroidalny, czyli centroid z terminów czy pojęć tych dokumentów, które należą do grupy minimalnej.lDefinicje SA.:lS.A.nazywamy zbiór XE∈X, taki że σ(tE) = XE, tE∈TEllS.A.jest zbiorem będącym odpowiedzią na term elementarnyllS.A.jest to najmniejsza klasa równoważności w systemiellPodzbiór obiektów nierozróżnialnych w systemie związanych z danym termem elementarnymllNajmniejszy rozróżnialny zbiór obiektów w systemie.llS.A.- zbiór obiektów o takim samym opisie, o takiej samej informacji o obiekcie (funkcji ρX)llRelacja równoważności ze względu na cały zbiór atrybutów systemu dzieli zbiór obiektów X na klasy abstrakcji będące zbiorami elementarnymi, czyli składowymi atomowymi:lB(x),B(y) - klasy abstrakcjiKlasy równoważności:lZbiór obiektów nierozróżnialnych ze względu na atrybutllZbiór obiektów dla których funkcja informacji zwraca tą samą wartośćlJęzykiem deskryptorowym LS nazywamy język systemowy, który jest językiem opisu w kartotece wyszukiwawczej, równocześnie język pytań i odpowiedzi w systemie; jest szczególnym przypadkiem języka informacyjnego; jest definiowany jako para: LS = <A, G> gdzie A - alfabet; G - gramatyka dwustopniowa (składa się z semantyki i syntaktyki).Definicja języka jest adaptowana do zadanego systemu informacyjnego.ALFABET - określa wszystkie symbole, które występują w językul0,1 ∈ A - wartości typu logicznego służą do oznaczania zbioru pełnego i pustego;llA , V ∈ A gdzie A - zbiór wartości nazw atrybutów; V - zbiór wartości;ll( , ) ∈ All+, ⋅ , ~ ∈ A gdzie ~ - negacja (NEG)lGRAMATYKA jest definiowana dwustopniowo:SYNTAKTYKA - określa zasady tworzenia słów w danym języku (TERMY - słowa w języku deskryptorowym, T - zbiór termów - zbiór słów w języku deskryptorowym)l0,1 ∈ Tll(a , v) ∈ T - deskryptor jest słowem w tym językullt , t' ∈ T - jeżeli należą do języka to słowami języka są również: ~ t ∈ T ; t + t' ∈ T ; t ⋅ t' ∈ T + - „lub” ⋅ - „i”llPytanie do systemu jest również termemlSEMANTYKA - określa znaczenie słów (znaczeniem słów są obiekty).Semantyka w języku deskryptorowym je określona jako: σ : T → X σ - odwzorowuje zbiór term w zbiór obiektów.Jeżeli obiekty będą opisane termami to pytanie kierowane do systemu jest termem, a znalezienie odpowiedzi na pytanie jest nadaniem znaczenia termom tego pytania.lσ (0) = ∅ σ (1) = X (pełny zbiór obiektów);llσ (a, v) = { x ∈ X , ρX (a) = V }llσ (~t) = X \ σ (t) ; σ (t + t') = σ (t) ∪ σ (t') ; σ (t ⋅ t') = σ (t) ∩ σ (t')l
[ Pobierz całość w formacie PDF ]