Yandex-adatszivárgás: útmutató az első találathoz?

Január végén megtörtént az első nagy Yandex-adatszivárgás. Ha ez így kínai lenne: a legnagyobb orosz keresőmotor fájljait kiszivárogtatták, és kiderült milyen szempontok alapján sorolta be az a találatokat. Ez sok kérdést felvetett: itt a receptje, hogy első találat legyek? Így működik a Google is? Egy biztos: aki keresőoptimalizál, az most tűkön ül.

Mi az a Yandex és mi történt?

Yandex a piac negyedik legnagyobb szereplője, Oroszországban pedig az elsőszámú keresőmotor. Csak a Google, Bing és Baidu előzik meg. A keresőmotorok dolga, hogy keressék az internetet: hol az új tartalom, és kinek lehet ez releváns? Minden frissített és régi tartalmat több száz szempont alapján besorolnak a találati listára. Ha keresőoptimalizálásról esik szó, akkor az első oldal a cél, ott is az első hely. Ez eddig világos. Mi történt a Yandexszel?

2023. január 27-én fedezték fel azt az 50 gigabájtnyi adathalmazt, amit még 2022 febuárjában mentett le egy feltehetőleg ottani alkalmazott. Az, hogy miért tette és ki tette, találgatják. Ugyanakkor feltételezik, hogy egyfajta „bemutatás” volt a vállalatnak, aminek politikájával nem értett egyet a szivárogtató. Az egyes darkwebes fórumon a következő téma és bejegyzés jelent meg 2023. január 24-én, amin keresztül a forrást el lehetett érni:

A szabadúszó programozók hamar szétszedték

Egy adatszivárgás mindig „friss hús” a programozók közt, és most sem kellett sok, hogy azt darabokra szedjék. Egyesek a programozó képességein mások a programozás rasszista nyelvezetén élcelődtek.

Nem ez az első Yandex-adatszivárgás

Az orosz Yandexnek már 2015-ben hasonló incidensben volt része. Akkor egy korábbi alkalmazott próbálta eladni a keresőmotor „forráskódját”, hogy a saját vállalkozását feltőkésítse. Akkor a fájlok nem kerültek nyilvánosságra, és nem is derült ki, hogy akkor tényleg valódi veszélyben volt-e a keresőmotor titka. Egyet tudunk: a darkweben a volt alkalmazottnak 28 ezer dollárt értek az információk. Hét évvel később újra felkaphatjuk a fejünket, ugyanis…

A mostani Yandex-adatszivárgás valódinak tűnik

Arseniy Shestakov és kapcsolatai szerint, akik korábban a Yandexnél dolgoztak, a forráskódok hitelesnek tűnnek, és a keresőmotor egy korábbi változatát tükrözik. A keresőmotor fájljait ugyanis 2022. júliusában töltötték le.

Az adathalmaz legérdekesebb fájlja a keresőoptimalizálóknak a „factors_gen”, ami állítólagosan azokat a szempontokat tartalmazza, ami alapján egy weboldalt a keresőmotor értékel. De hát ezt eddig is tudtuk, nem? A helyzet az, hogy igen és nem.

Nem olyan egyszerű keresőoptimalizálni

Aki nyomon követi a Google híreit – és ha állása ettől függ, akkor igen is nyomon követi – az észreveszi, hogy az „algoritmuson” mindig csiszolnak egy kicsit. Tudjuk azt, hogy fontos ez meg az, tudjuk, hogy ez nem annyira számít, néha egy alkalmazott elejt pár információmorzsát egy interjúban. De hogy nem tudjuk pontosan, mi mennyire számít. Ez nem egy Michelin-csillag, amihez megkapjuk a pontrendszert, és tessék, kezdd el.

Miért lehet releváns a Yandex-adatszivárgás?

A Yandex korábbi Google-alkalmazottakat is foglalkoztat, emiatt pedig a „Google-klón” gúnynevet is megkapta. Ha lefuttatunk egy keresést a Google-ben és a Yandexben, akkor nagyjából ugyanazokat a találatokat fogjuk látni kisebb eltérésekkel. Ennek ellenére fontos kihangsúlyozni, hogy a kettő nem egy és ugyanaz, de az eddigi feltételezések egy irányba mutatnak. A Google is hasonlóképp értékelhet, ugyanakkor biztosan másképp.

Mire jöttünk rá a Yandex-adatszivárgásból?

Hát egyrészt arra, hogy brutálisan sok a tényező, amit figyelembe kell venni, és emberi keretek között lehetetlen is. Közel 2000 faktor szerepel a dokumentumban. Ugyanakkor van pár feltételezés, amit közöltek. A következő konklúziókat vonták le más szakértők a dokumentumból:

a fizetett és organikus forgalom arányai rangsorolási tényező
az URL-felépítésében a számok és kötőjelek negatív tényezők
a tárhely, webhosting minősége számít (kevés 400-as hibakód előny)
a felhasználói viselkedés mutatói befolyásolják az értékelést:
- minél többen kattintanak át a weboldalra, annál jobb
- ha az adott oldallal zárja be a böngészőt a felhasználó, előny (megtalálta a választ nálad)
- minél több időt töltenek az oldalon, annál jobb
- minél kevesebben lépnek vissza, ikszelnek ki, annál jobb
a crawl depth tényező, azaz hány lépéssel lehet eljutni egy oldalig (pl. főoldal -> blog -> poszt = 3)
a Wikipédiáról érkező hivatkozás előnynek számít
ha könyvjelzőként mentik el a weboldalt, előny
a beágyazott videó előnyként jelenik meg
azok a linkek, amelyek a kulcsszóval szerepelnek a szövegben, előnyösebbek
a főoldalról aloldalakra mutató linkeknek nagyobb súlyuk van, mint fordítva
az oldalon megjelenő hirdetés negatív tényező

és még rengeteg más tényező, amit hetekig elemezhetnénk. Ugyanakkor van, ami kiemelésre méltó.

Az YMYL létezik

YMYL = Your Money, Your Life. Azaz, a te pénzed, te életed. De egyszerűbbre lefordítva: minden olyan dolog, ami egy egyén életére komolyabb hatással lehet, az YMYL kategória alá tartozik. Azért is fontos szempont ez, mert az is számít egy weboldalnál, hogy megbízható, szakértő és létező szerző által jött létre egy tartalom. Ha pedig YMYL témáról van szó, akkor duplán fontos.

Mi lehet YMYL? Bármi, ami érinti a testi, lelki, szellemi egészséget, pénzügyi ismereteket, a társadalomban zajló történéseket és változásokat. Ha átgodoljuk, elég logikus a keresőmotor szempontja: Ha nem vagy megbízható és profi a témában, ne írj róla, vagy ha írsz, lepontozunk. Ugyanis senkinek sem érdeke, hogy olyan találatot mutasson az elsők között, ami átver, becsap, és az embert megbetegíti.

A Yandex-adatszivárgás pedig pont arra hozott bizonyítékot, hogy a YMYL létezik a maga 15 tényezőjével egészségügyi, pénzügyi és jogi témákban.

Oldalak, amik különleges bánásmódban részesülnek

Tudjuk, hogy nem lehet minden weboldalt ugyanúgy és ugyanolyan szempont szerint értékelni. Nem ugyanaz a célja egy hírportálnak meg egy vállalati weboldalnak. Ezért pedig nem is csoda, hogy ennyi szempont van, és hogy azokból egyesek csak bizonyos weboldalakra vonatkoznak.

Például a TikTok, YouTube és Wikipedia oldalai külön vannak rangsorolva. Előnyt jelent a Wikipédiáról a weboldalunkra mutató link, és a Wikipédia is előnyt élvez a találatok között. Megesik az is, hogy előny, ha a Yandex-metrika követőkódját találja meg a robot, és bünteti, ha valamelyik konkurens keresőmotorét.

Már saját adatbázist építettek az információkból

Egyesek olyannyira fellelkesültek, hogy egy algoritmust írtak arra, hogy elemezzék a kiszivágott kódot. A „Yandex Search Ranking Factors Explorer” szerint már 21 488 felfedezett kritérium van, amit a keresőbot megnéz egy weboldalon. Az angol nyelvű adatbázisban keresgélni itt tudunk.

Milyen tanulságot vonhatunk le belőle?

Leginkább azt, hogy a legtöbb bevált praktika a SEO-ban tényleg az előnyünkre válik. Bár mint említettük, a Yandex és a Google motorja nem egy és ugyanaz, átfedések lehetnek köztük. Lehet SEO-t tanulni úgy is, hogy végignyálazzuk a Yandex kritériumait. Az kevésbé igaz, hogy ez az effektív és költséghatékony módja a tanulásnak. Ugyanakkor ha elemezzük a Yandex-adatszivárgás részleteit, egy biztos: amit eddig tudtunk, az megalapozott volt, és úgy néz ki, ha várunk egy kicsit, kiderül, mi lesz az, ami igazán számít a keresőoptimalizálásban.

Források:
https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
https://gradeta.sk/blog/hodnotiace-faktory-yandexu

További írásaink