Nie czytając, poznać treść, czyli o metodach automatycznej identyfikacji słów kluczowych

Maciej Eder (Instytut Języka Polskiego PAN)

Nie czytając, poznać treść,
czyli o metodach
automatycznej identyfikacji
słów kluczowych

Maciej Eder

Instytut Języka Polskiego PAN

Wprowadzenie

Czy idealne słowo kluczowe może istnieć?

Podstawowe założenia

Przykładowy artykuł

Wystawę prezentującą dorobek Tadeusza Kantora obejrzą mieszkańcy Sao Paulo (Brazylia). Ekspozycja “Maszyna Kantor. Wystawianie, perforowanie, montowanie, malowanie i inne sposoby produkcji” otwarta zostanie 18 sierpnia. W tym roku przypada 100. rocznica urodzin artysty. Jak poinformował Błażej Filanowski z Muzeum Sztuki w Łodzi - jednego ze współorganizatorów wystawy - ekspozycja będzie “największą, komplementarną prezentacją dorobku tego twórcy poza granicami kraju, jak i jego pierwszą retrospektywą w Ameryce Południowej”. W specjalnie przygotowanej przestrzeni pojawi się ponad 130 obiektów: oryginały i repliki rekwizytów scenicznych, dzieła malarskie, rysunki, asamblaże, a także bardzo bogata dokumentacja fotograficzna i filmowa happeningów, akcji oraz…

15 najsilniejszych słów kluczowych

kantora, kantor, sztuki, cricot, paulo, sao, teatru, krakowskiej, muzeum, ekspozycja, twórczości, krakowie, happeningów, krzysztofory, kuratorów, …

Prosty pomysł…

Rok 1647 był to dziwny rok, w którym rozmaite znaki na niebie i ziemi zwiastowały jakoweś klęski i nadzwyczajne zdarzenia.

rok zwiastowały jakieś zdarzenia nadzwyczajne klęski znaki rozmaite dziwny niebie ziemi którym był i to na w

Słowa kluczowe vs. pozostałe

kantora, kantor, sztuki, cricot, paulo, sao, teatru, krakowskiej, muzeum, ekspozycja, twórczości, krakowie, happeningów, krzysztofory, kuratorów, plastyków, scenografem, wielopole, wystawy, aktorem, malarza, muzeów, reżyserem, …, …, …, …, a, są, jak, jej, również, która, bardzo, tej, do, na, w, się

Metoda LL

Analiza słów kluczowych

Słowa kluczowe LL

##   [1] "lecz"           "ponieważ"       "jako"           "jest"          
##   [5] "np"             "informacji"     "świat"          "dzieła"        
##   [9] "są"             "można"          "czyli"          "fiction"       
##  [13] "science"        "jeśli"          "świata"         "powieści"      
##  [17] "bowiem"         "właśnie"        "teorii"         "dla"           
##  [21] "oraz"           "literatury"     "należy"         "tj"            
##  [25] "więc"           "itp"            "by"             "podług"        
##  [29] "utwór"          "lub"            "postaci"        "otóż"          
##  [33] "takiej"         "stanowi"        "przedstawia"    "teoria"        
##  [37] "niejako"        "względem"       "sprzeczności"   "takich"        
##  [41] "wiedzy"         "mogą"           "takiego"        "bohatera"      
##  [45] "mianowicie"     "utworu"         "musi"           "typu"          
##  [49] "ani"            "autor"          "powieść"        "wszak"         
##  [53] "zbioru"         "życia"          "natomiast"      "czytelnika"    
##  [57] "natury"         "dicka"          "dostojewskiego" "sf"            
##  [61] "takim"          "sensie"         "gdy"            "dzieło"        
##  [65] "kultury"        "zjawisk"        "takie"          "jakim"         
##  [69] "zachodzi"       "czysto"         "tedy"           "nam"           
##  [73] "zaś"            "gdyż"           "literaturze"    "literatura"    
##  [77] "utwory"         "zarazem"        "zjawiska"       "tym"           
##  [81] "pisarz"         "zajść"          "sytuacji"       "bohater"       
##  [85] "humbert"        "wszakże"        "gatunku"        "dziś"          
##  [89] "stanu"          "todorov"        "utworów"        "prostu"        
##  [93] "daje"           "istnieją"       "skoro"          "aby"           
##  [97] "efekt"          "literackich"    "toteż"          "czytelnik"

Zeta

Zeta: założenia

Zeta: rozwiązania

\[\zeta_{(a,b)} = \left(\frac{f_{(a)} - f_{(b)}}{100}\right) +1\]

(Burrows, 2007; Craig, 2009)

Zeta: wyniki

Słowa kluczowe obliczone metodą Zeta

##   [1] "np"          "takiej"      "świata"      "oraz"        "świat"      
##   [6] "czyli"       "należy"      "względem"    "przedstawia" "wiedzy"     
##  [11] "takim"       "otóż"        "typu"        "powieści"    "lecz"       
##  [16] "skoro"       "niejako"     "itp"         "mianowicie"  "wszak"      
##  [21] "gdyż"        "takiego"     "staje"       "wydaje"      "natomiast"  
##  [26] "sytuacji"    "jakim"       "tj"          "wszakże"     "ponieważ"   
##  [31] "życia"       "postaci"     "daje"        "literatury"  "utworu"     
##  [36] "bowiem"      "mogą"        "zaś"         "dzieła"      "natury"     
##  [41] "zachodzi"    "czysto"      "utwór"       "autor"       "stanu"      
##  [46] "lub"         "zarazem"     "stanowi"     "zatem"       "zjawisk"    
##  [51] "mówi"        "podług"      "literackich" "nam"         "zjawiska"   
##  [56] "nauki"       "wręcz"       "istnieją"    "możliwych"   "rozmaitych" 
##  [61] "skądinąd"    "science"     "czytelnika"  "dzieło"      "kultury"    
##  [66] "utwory"      "toteż"       "autora"      "im"          "ów"         
##  [71] "teorii"      "kolei"       "wartości"    "stąd"        "teoria"     
##  [76] "wieku"       "informacji"  "sądzę"       "owej"        "tedy"       
##  [81] "relacji"     "fakt"        "wyłącznie"   "kwestii"     "dość"       
##  [86] "trudno"      "literatura"  "niestety"    "literaturze" "charakter"  
##  [91] "działań"     "filozofii"   "pełni"       "rzec"        "stopniu"    
##  [96] "jakimi"      "ono"         "takie"       "musi"        "niż"

Krakowiana

Szekspir vs. Conan Doyle

word count word count
the 27595 the 28662
and 26735 and 14109
I 22538 of 13229
northerly 1 revolvers 1

Frekwencja oraz pozycja

\[P_{r(x)} = \frac{1}{N}\sum_{i=1}^{r(x)}f(i)\]

co jednocześnie zapewnia, że wartości znajdą się w przedziale {0, 1}.

Frekwencja oraz pozycja

bardziej elegancka wersja omawianego pomysłu:

\[P_{r(x)} = \left( \frac{1}{N}\sum_{i=1}^{r(x)}f(x_{i}) \right) - f(x)\]

która jest oczywiście jednoznaczna z poniższym wzorem:

\[P_{r(x)} = \frac{1}{N}\sum_{i=1}^{r(x-1)}f(x_{i})\]

Interpretacja algebraiczna

Z powyższych wzorów wynika, że pozycja danego słowa \(P_{r(x)}\) jest po prostu sumą skumulowaną frekwencji wszystkich słów poprzedzających.

Słowa wydobyte nową metodą

##   [1] "świat"          "fiction"        "science"        "powieści"      
##   [5] "literatury"     "itp"            "podług"         "utwór"         
##   [9] "np"             "względem"       "przedstawia"    "tj"            
##  [13] "sprzeczności"   "wiedzy"         "bohatera"       "mianowicie"    
##  [17] "utworu"         "autor"          "powieść"        "wszak"         
##  [21] "zbioru"         "czytelnika"     "dicka"          "dostojewskiego"
##  [25] "sf"             "dzieło"         "kultury"        "typu"          
##  [29] "zajść"          "tedy"           "utwory"         "pisarz"        
##  [33] "bohater"        "humbert"        "wszakże"        "informacji"    
##  [37] "stanu"          "todorov"        "utworów"        "efekt"         
##  [41] "literackich"    "toteż"          "czytelnik"      "oraz"          
##  [45] "relacji"        "znaków"         "dostojewski"    "mejbaum"       
##  [49] "przypadku"      "ulega"          "wellsa"         "akcji"         
##  [53] "autora"         "fakt"           "itd"            "języka"        
##  [57] "społecznych"    "wells"          "de"             "jednakże"      
##  [61] "wypowiedzi"     "todorova"       "zasadniczo"     "cywilizacja"   
##  [65] "fantastyki"     "informacja"     "kreacji"        "krytyk"        
##  [69] "nowej"          "zawiera"        "stanów"         "uznać"         
##  [73] "własności"      "wyłącznie"      "dick"           "kwestii"       
##  [77] "oszusta"        "ową"            "zadanie"        "zasadzie"      
##  [81] "ewolucji"       "teorię"         "kraków"         "zbiór"         
##  [85] "okaże"          "znaku"          "różnica"        "społeczeństwa" 
##  [89] "technologii"    "wojna"          "zdań"           "ad"            
##  [93] "artystycznego"  "będąc"          "informację"     "krytyka"       
##  [97] "mackiewicz"     "naturalne"      "techniki"       "tekstów"

Porównanie

Słowa kobiece, słowa męskie (w literaturze)

Słowa kluczowe LL

##  [1] "barbara"   "bogumił"   "waldemar"  "stefcia"   "kaśka"     "andzia"   
##  [7] "ordynat"   "kwiryna"   "jej"       "elżbieta"  "pani"      "klicki"   
## [13] "mię"       "niki"      "amelka"    "jan"       "horski"    "agnieszka"
## [19] "krępic"    "róża"      "andrzej"   "ordynata"  "stefci"    "meir"     
## [25] "lucia"     "teresa"    "justyna"   "raczyńska" "andzi"     "bronka"   
## [31] "wyrzekł"   "cechna"    "witold"    "waldemara" "kościesza"
##  [1] "wokulski"     "ażeby"        "madzia"       "kiej"         "połaniecki"  
##  [6] "pan"          "książę"       "który"        "że"           "zaś"         
## [11] "latter"       "a"            "rzekł"        "mu"           "wilczek"     
## [16] "zagłoba"      "począł"       "jędrzej"      "winicjusz"    "dyzma"       
## [21] "skarbnik"     "madzi"        "odpowiedział" "murek"        "skrzetuski"  
## [26] "bowiem"       "ramzes"       "solski"       "faraon"       "ada"         
## [31] "flawiusz"     "petroniusz"   "tym"          "wokulskiego"  "judym"

Krakowiana

##  [1] "waldemar"  "andzia"    "kwiryna"   "klicki"    "niki"      "kaśka"    
##  [7] "amelka"    "horski"    "krępic"    "ordynata"  "meir"      "bogumił"  
## [13] "stefcia"   "lucia"     "justyna"   "raczyńska" "andzi"     "cechna"   
## [19] "ordynat"   "tagiejew"  "jéj"       "kościesza" "agnisia"   "rita"     
## [25] "barbara"   "witold"    "waldemara" "rosomak"   "jania"     "terenia"  
## [31] "trestka"   "elżbieta"  "lora"      "tarłówna"  "kaźmiérz"
##  [1] "połaniecki"  "latter"      "wokulski"    "zagłoba"     "dyzma"      
##  [6] "skarbnik"    "skrzetuski"  "solski"      "winicjusz"   "ada"        
## [11] "flawiusz"    "petroniusz"  "judym"       "chmielnicki" "wilczek"    
## [16] "zawiłowski"  "faraon"      "gniewosz"    "kergolaj"    "murek"      
## [21] "wokulskiego" "nikodem"     "jelsky"      "turski"      "kunicki"    
## [26] "jaże"        "bohun"       "madzię"      "borowiecki"  "dębicki"    
## [31] "tutmozis"    "howard"      "täli"        "madzi"       "rzecki"

Zeta

##  [1] "oczami"     "znów"       "pewno"      "pani"       "ach"       
##  [6] "czuła"      "usta"       "przecież"   "swe"        "swą"       
## [11] "wzrokiem"   "wzrok"      "dziewczyna" "oczu"       "chciała"   
## [16] "spojrzała"  "panią"      "postać"     "czyż"       "mię"       
## [21] "podniosła"  "dziecko"    "głębi"      "stała"      "dotąd"     
## [26] "matka"      "tem"        "matki"      "sama"       "powoli"    
## [31] "miała"      "myślała"    "nagle"      "ramionami"
##  [1] "bowiem"       "począł"       "odpowiedział" "ażeby"        "którzy"      
##  [6] "przecie"      "kazał"        "między"       "jakoż"        "zaś"         
## [11] "ledwie"       "ponieważ"     "tysięcy"      "rozdział"     "gdyż"        
## [16] "czym"         "dał"          "musiał"       "bóg"          "całkiem"     
## [21] "wraz"         "około"        "rzekł"        "nareszcie"    "poszedł"     
## [26] "tymczasem"    "drugi"        "wszystkim"    "zrobił"       "iż"          
## [31] "jako"         "jeżeli"       "zgoła"        "szlachcic"

Lematyzacja

Nie chodzi tutaj — u kaduka! — o herb ani o szeregi przodków podgolonych, z sarmackimi wąsami i przy karabelach — ani wydekoltowane prababki w fiokach. Ojciec i matka — otóż i cały rodowód, jak to jest u nas, w dziejach nowoczesnych ludzi bez wczoraj. Z konieczności wzmianka o jednym dziadku, z musu notka o jednym jedynym pradziadku. Chcemy uszanować nasyconą do pełna duchem i upodobaniem semickim awersję ludzi nowoczesnych do obciążania sobie pamięci wiadomościami, w którym kościele czy na jakim cmentarzu dany dziadek spoczywa. Otóż — ojciec nosił nazwisko Baryka, imię Seweryn, które na rozłogach rosyjskich zbytnio nie raziło. „Siewierian Grigoriewicz Baryka” — uchodziło wtedy, prześlizgiwało się niepostrzeżenie.

Lematyzacja

nie chodzić tutaj — u kaduk — o herb ani o szereg przodek podgolony, z sarmacki wąs i przy karabela — ani wydekoltowany prababka w fiok. ojciec i matka — otóż i cały rodowód, jak to być u ja, w dzieje nowoczesny człowiek bez wczoraj. z konieczność wzmianka o jeden dziadek, z mus notka o jeden jedyny pradziadek. chcieć uszanować nasycony do pełen duch i upodobanie semicki awersja człowiek nowoczesny do obciążać sobie pamięć wiadomość, w który kościół czy na jaki cmentarz dany dziadek spoczywać. otóż — ojciec nosić nazwisko Baryka, imię Seweryn, który na rozłoga rosyjski zbytnio nie razić. „Siewierian Grigoriewicz Baryka” — uchodzić wtedy, prześlizgiwać się niepostrzeżenie.

Słowa lematyzowane

##  [1] "dłoń"       "znów"       "ach"        "dziewczyna" "pani"      
##  [6] "suknia"     "wzrok"      "pewno"      "czuły"      "quot"      
## [11] "ciemny"     "ramię"      "przecież"   "postać"     "pochylić"  
## [16] "źrenica"    "różowy"     "głębia"     "dziecinny"  "podniosły" 
## [21] "chłopiec"   "czyż"       "spojrzenie" "zauważyć"   "dotąd"     
## [26] "tęsknota"   "cisza"      "drżeć"      "matka"      "usta"      
## [31] "zobaczyć"   "śmiech"     "tema"       "płynąć"
##  [1] "bowiem"       "począć"       "ażeby"        "przecie"      "zaś"         
##  [6] "między"       "kazać"        "przypatrywać" "jakoż"        "szlachta"    
## [11] "żołnierz"     "odpowiedzieć" "gdyż"         "ledwie"       "szlachcic"   
## [16] "ponieważ"     "rozdział"     "drugi"        "czym"         "wraz"        
## [21] "wojna"        "całkiem"      "nareszcie"    "rozmaity"     "obaczyć"     
## [26] "około"        "jeżeli"       "następnie"    "stare"        "kilkanaście" 
## [31] "dosyć"        "trzeci"       "tymczasem"    "ksiądz"

Podsumowanie

Podsumowanie

Dziękuję za uwagę