Faktory ovlivňující pozice ve vyhledávačích

25. května v 23:19

Vyhledávání na českém internetu dominují vyhledávače Google a Seznam. Každý je založen na vlastním vyhledávacím algoritmu. Budeme se zde věnovat tomu sofstikovanějšímu z uvedené dvojce.

Google byl založen dvěma studenty doktorského studia na Stanfordu, Sergeyem Brinem a Larrym Pagem. Světu přinesl úplně nový koncept hodnocení webových stránek. Tento koncept, zvaný PageRank, byl už od začátku důležitou součástí algoritmů Googlu. Je založen na množství zpětných odkazů, kde zpětné odkazy představují jakési hlasy, jejichž počet určuje hodnotu stránky, na kterou vedou. Čím víc hlasů, tím kvalitnější stránka. Ovšem ne všechny hlasy (zpětné odkazy) mají stejnou hodnotu. Hodnota každého zpětného odkazu se odvíjí od PageRank hodnoty stránky, ze které odkaz vede, přičemž je tato hodnota navíc dělena počtem takových odkazů na stránce.
 
S pomocí PageRanku prokázal Google své kvality na poli vyhledávání relevantních výsledků a postupně se stal nejúspěšnějším a nejpoužívanějším a vyhledávačem na světě, a to proto, že PageRank měřil faktory vnějšího prostředí, o kterých si Google myslel, že nejsou na rozdíl od faktorů vlastní stránky tak moc zmanipulovatelné.
 
Lidé si ale najdou skulinku všude. Už tehdy měli webmasteři k dispozici postupy a nástroje, pomocí kterých ovlivňovali výsledky vyhledávače Inktomi a které se nakonec ukázaly jako stejně dobře použitelné i na zmatení algoritmů Googlu. Vzniklo obrovské množství stránek zaměřených na výměnu, nákup a prodej zpětných odkazů ve velkém, což filozofii PageRanku podkopávalo. Už se nemohl na zpětné odkazy spoléhat jako na adekvátní ukazatel kvality stránky, jelikož velká spousta webmasterů „sbírala“ odkazy jen za účelem ovlivnění své pozice ve výsledcích vyhledávání, bez jakéhokoliv užitku těchto odkazů pro uživatele. Navíc, hlavní technika vyhledávání stále spočívala v prohledávání všech webových stránek na výskyt klíčových slov, čehož využívaly stránky obsahující slovníkové seznamy, díky kterým pak tyto stránky vyhovovaly takřka jakémukoliv vyhledávanému výrazu. Jejich hodnota byla navíc zpravidla ještě posilována PageRankem získaným z podvodných odkazů. Vyhledávání se pak často stávalo soubojem právě takových stránek.
 
Nastal čas, aby Google (a nejen on) začal posuzovat kvalitu podle podstatně širší škály faktorů vnějšího prostředí. Důvodů pro vývoj inteligentnějších algoritmů pro vyhodnocení pozice webu ve vyhledávání bylo však více. Na internetu se pohybovala početná skupina technicky ne příliš vzdělaných uživatelů, neschopných používat pokročilejší techniky vyhledávání pro dosažení potřebných informací, nehledě na to, že stále vzrůstal objem a komplexita dat na internetu dostupných. Vyhledávače musely tedy vyvinout prediktivní, sémantické, lingvistické a heuristické algoritmy. Tak vznikly počátky Clever Projectu od IBM, který zahrnoval algoritmus HITS vyvíjený Jonem Kleinbergem.
 
Ačkoliv se v Google Toolbaru stále zobrazuje hodnota PageRank, nyní je to jen jeden z více než sta faktorů ovlivňujících hodnocení stránek Googlem. Většina vyhledávačů se dnes snaží své metody a hodnotící algoritmy utajit za účelem zachování soutěže o nejkvalitnější vyhledávání a také kvůli omezení možnosti jejich zneužití podvodnými stránkami. Vyhledávače dnes používají při hodnocení stránek stovky různých faktorů, jež se (stejně jako jejich váha) mohou stále měnit. I samotné algoritmy jednotlivých vyhledávačů se mohou podstatně lišit. Stránka, která je na první pozici mezi výsledky jednoho vyhledávače, může být stejně tak ve výpisu jiného vyhledávače schována pod desítkami dalších výsledků.
 
V současné době je většina věcí okolo SEO optimalizace spíše spekulacemi a odhady, nicméně byly prováděny i jisté kontrolované experimenty za účelem změření efektu různých technik používaných pro optimalizaci stránek.
 
Seznam následujících faktorů je spekulací o možných kritériích, které vyhledávače momentálně používají nebo by se v dohledné době mohly projevit v jejich algoritmech. Některé položky jsou odvozeny z patentových návrhů Googlu, z nichž lze usuzovat, co se děje „pod pokličkou“, jiné jsou čisté spekulace. Je však dobré mít na paměti, že má Google u amerického patentového úřadu zaregistrováno přes 180 patentů a jejich návrhů, přičemž spousta z nich může vypovídat o různých dalších faktorech hodnocení webových stránek ve vyhledávání, které nemusí být nutně v souladu s tímto přehledem.
  • Věk stránky
  • Stáří domény
  • Stáří obsahu
  • Frekvence, s jakou je přidáván nový obsah
  • Objem textu větší než 200-250 slov
  • Stáří zpětných odkazů a reputace odkazujících stránek
  • Standardní (pozitivní) faktory vlastní stránky
  • Negativní faktory vlastní stránky (například příliš vysoká hustota klíčových slov)
  • Jedinečnost obsahu
  • Zahrnutí příbuzných termínů v obsahu (tedy slov, které jsou podle vyhledávače příbuzné hlavnímu obsahu stránky)
  • Google PageRank (používá pochopitelně jen Google, Seznam používá Srank)
  • Odkazy vedoucí mimo stránku, texty těchto odkazů i obsah stránek, na které odkazují
  • Citace a zdroje (napovídající jisté kvalitě obsahu)
  • Variace klíčových slov (např. skloňování)
  • Zpětné odkazy a jejich texty
  • Diverzifikace zpětných odkazů (různorodost zdrojů Blogy, Sociální sítě, WEB 2.0 atd.)
  • Text obklopující odkazy vedoucí ze stránky a zpětné odkazy na stránce, ze které vedou
  • Použití „rel=nofollow“ naznačující prohlížečům, aby odkaz ignorovaly
  • Hloubka textů na stránce
  • Metriky ze zdrojů jako Google Toolbar, Google AdWords/Adsense atd.
  • Metriky z ostatních zdrojů, například míra, při jaké uživatel ihned po zobrazení stránky klikne na tlačítko „zpět“
  • Metriky získávané ze zdrojů třetích stran, např. ze statistických programů pro měření provozu na stránce
  • Míra odstraňování odkazů vedoucích na stránku
  • Použití subdomén, objem obsahu a výskyt klíčových slov na těchto subdoménách
  • Významové spojení hostovaných dokumentů
  • Míra přírůstku nových dokumentů či změn těch stávajících
  • IP hostingu, počet a kvalita ostatních stránek na něm hostovaná
  • Vztahy mezi odkazovanými stránkami (např. zda mají sdílenou IP adresu, zda mají stejné údaje v sekci „kontakt“ apod.)
  • Technické záležitosti, jako užití kódu 301 pro přesměrování a chyby 404 pro neexistující stránku, správné použití souboru robots.txt, sitemap.xml
  • Stabilita hostingu, rychlost načítání obsahu
  • Kvalita HTML kódu a přítomnost chyb
  • Míra prokliků sledovaná u přirozených výsledků vyhledávání (CTR)
  • Ruční ohodnocení uživateli u nejfrekventovanějších výsledků vyhledávání
  • skryté přesměrování obsahu (cloaking)
  • Špatně zakončené nefunkční odchozí odkazy
  • Nebezpečný nebo ilegální obsah, malware
Zdroj: sem-seo.org