Czym jest TF*IDF i jak wpływa na pozycjonowanie
– zamek (budowla) – wieże, baszty, warownia, wały, rycerze, itp.
– zamek (mechanizm zamykający drzwi) – drzwi, brama, klucz, rygiel, itp.
– zamek (część garderoby) – spodnie, rozporek, kurtka, tkanina, itp.
Dzięki tej technice można odróżnić w korpusie dokumenty dotyczące wyrażeń o różnych znaczeniach. Warto wspomnieć, że wyżej opisana technika zastąpiła logikę Boole’a, która opierała się na metodzie 0-1. Pozwalała bowiem znaleźć dane wyrażenia w dokumencie, jednak nie odróżniała znaczenia danych wyrazów.
Dokument – tekst, który zamierzamy zbadać pod kątem nasycenia czy tematyczności.
Fraza – główne wyrażenie kluczowe, którego nasycenie chcemy zbadać.
Korpus – jest to zbiór dokumentów, do którego chcemy porównać badany dokument; w zależności od potrzeb może to być TOP10 wyszukiwarki czy kilka tematycznych artykułów.
Waga wyrażenia/frazy – liczba występowania danej frazy w odniesieniu do liczby słów całego dokumentu. Nie uwzględnia ona tzw. stop słów.
Wyrażenia powiązane – są to frazy, które zwiększają/określają tematyczność całego tekstu.
SERP – organiczne wyniki wyszukiwania.
1. Częstotliwość wyrażenia (TF)
TF (Term Frequency) pozwala określić częstotliwość występowania danej frazy w konkretnym dokumencie. Jego zakres obejmuje wyłącznie jeden dokument, który ma być badany. Wartość ta jest wprost proporcjonalna do częstotliwości występowania wyrazu.

ni,j – 34,
nkj – 100,
a więc:

Na podstawie tych obliczeń możemy ustalić, że TF – częstotliwość występowania słowa „zamek” w badanym dokumencie wynosi 0,34.
2. Odwrotna częstotliwość w dokumentach (IDF)
IDF (Inverse Document Frequency) pozwala sprawdzić, jak często dany termin występuje we wszystkich dokumentach badanego korpusu językowego. W zależności od potrzeb może być chociażby TOP10 wyników wyszukiwania, zbiór artykułów naukowych z danej dziedziny, konkretny zbiór tekstów, itp. Jest to odwrotna częstotliwość wyrażenia, dlatego też im częściej dany wyraz pojawia się w korpusie, tym wynik IDF będzie niższy.
Wartość tę można obliczyć z poniższego wzoru:

gdzie:
IDFi,D – odwrotna częstotliwość słowa i we wszystkich dokumentach korpusu D,
di – ogólna liczba dokumentów w badanym korpusie językowym,
mi – liczba dokumentów, które zawierają co najmniej jedno wystąpienie słowa i.
Wróćmy do naszego przykładu z „zamkiem”. Przyjmijmy, że w badanym korpusie, który zawiera 10 milionów dokumentów, wyrażenie „zamek” pojawia się w 300 000 dokumentach. Zatem dane do wzoru TF*IDF są więc następujące:
di – 10 000 000
mi – 300 000.
Powyższe dane pozwalają nam obliczyć odwrotną częstotliwość frazy i (IDFi,D):

gdzie:
TF –częstotliwość słowa i w dokumencie j,
IDF – odwrotna częstotliwość słowa i we wszystkich dokumentach korpusu
ni,j –liczba wystąpień słowa i w dokumencie j,
nk,j –liczba wystąpień wszystkich słów w dokumencie j,
di – ogólna liczba dokumentów w badanym korpusie językowym,
mi – liczba dokumentów, które zawierają co najmniej jedno wystąpienie słowa i.

– ungramy – wyrażenie zawierające jeden wyraz,
– bigramy – wyrażenie zawierające dwa wyrazy,
– trygramy – wyrażenie zawierające trzy wyrazy,
– itd.
Sposób obliczania i wzór TF*IDF dla bigramów czy trygramów jest analogiczny do schematu z jednym wyrazem.
Należy pamiętać, że wyżej przedstawiony wzór TF*IDF jest jednym z najprostszych schematów. Aby dawał on miarodajne i rzetelne wyniki, jest w odpowiedni sposób normalizowany przez wyszukiwarkę. W zależności od preferencji można modyfikować poszczególne wzory. Czasami podczas liczenia IDF do wartości mianownika dodaje się 1, aby uniknąć ewentualnego dzielenia przez 0. Podczas liczenia TF natomiast wykorzystuje się dodatkowo wzór Pitagorasa.
3. Co można wywnioskować z wartości TF*IDF?
Wartości te pozwalają zestawić częstotliwość występowania danej frazy w naszym dokumencie z korpusem językowym. To z kolei daje nam jasne wskazówki pod kątem SEO copywritingu – czy nasz tekst jest odpowiednio nasycony, a także tematyczny dla algorytmów Google (podczas badania obecności wyrażeń powiązanych przy pomocy LSI).
Dlatego też wyniki otrzymane ze wzoru TF*IDF zawsze będą względne – aby dać nam jakąkolwiek informację, powinny być zawsze zestawiane z wynikiem TF*IDF wszystkich dokumentów z naszej bazy. Korzystając z naszych przykładowych obliczeń frazy „zamek”, przedstawmy otrzymane dane na wykresie:
Na podstawie powyższego wykresu możemy ustalić, że słowo „zamek” występuje w badanych dokumentach częściej (w odniesieniu do liczby słów) niż w naszym tekście. Dzięki informacjom o TF*IDF możemy poprawić nasycenie naszego tekstu, a także dowiedzieć się, jakich wyrażeń powiązanych użyć, aby był on bardziej tematyczny.
Jak taki wykres może wyglądać w praktyce?
4. Jak można wykorzystać wynik TF*IDF w SEO Copywritingu i pozycjonowaniu witryny internetowej?
tak, aby dana podstrona potencjalnie mogła lepiej rankingować. Jest to niezwykle ważna wskazówka w SEO copywritingu.
Obliczanie TF*IDF dokumentu według podanego wyżej wzoru daje jasny obraz, jak nasz tekst prezentuje się na tle badanego korpusu językowego. Pozwala porównać nasycenie oraz tematyczność z innymi dokumentami z dowolnego zbioru, np. TOP10 wyszukiwarki.
5. Podsumowanie
Źródła: Semrush; Moz; Elephate; Google Patent; Medium