Veľký uník dát z Yandexu

Yandex-leak-2023

Pravdepodobne ste už počuli o spoločnosti Yandex, ktorá je štvrtým najväčším vyhľadávačom na svete. Dňa 30. januára bol odhalený dôverný zdrojový kód spoločnosti Yandex. Zoznam všetkých 1922 kritérií hodnotenia používaných vo vyhľadávacom algoritme je práve to čo aj najviac zaujíma odborníkov na SEO.

Čo sa nachádza v Yandex leaku?

Z Yandexu sa podarilo hackerom získať až 44,7 GB interných dát

  • Indexovanie a vyhľadávač
  • Mapy – podobne ako Mapy Google a Street View Disk – podobne ako asistenti s umelou inteligenciou Siri a Alexa – online úložisko pre súbory, napríklad Disk Google
  • Taxi služba v štýle Uberu je taxík.
  • Direct – Reklamná služba podobná službe Google Ads / Adwords Mail – Poštová služba podobná službe GMail Market – Trhovisko podobné službe Amazon Travel – Podobné službe Booking.com plus lístky na autobusy, vlaky a lietadlá
  • Yandex360 – podobná služba ako Google Workspaces pre služby na vašej vlastnej webovej stránke
  • Cloud – Je pravdepodobné, že nebol odhalený celý kód infraštruktúry.
  • Pay – Spracovanie platieb podobné službe Stripe, ale s menším počtom funkcií
  • Metrika – Podobná službe Google Analytics

A väčšina ďalších podnikových služieb obsahuje aspoň backendovú zložku. Najväčší archív, označený ako „frontend“, zatiaľ nebol preskúmaný.

Zistilo sa, že, Vyhľadávač Yandex uprednostňuje stránky, ktoré:

  • nie sú príliš staré
  • sú umiestnené na spoľahlivých serveroch
  • sú prepojené s Wikipédiou
  • sú umiestnené na doméne alebo na ne vedú odkazy zo stránok vyššej úrovne
  • majú kľúčové slová v adrese URL (maximálne tri)

Narušením bolo odhalených približne 1 922 kritérií hodnotenia používaných vyhľadávačom. Kód bol sprístupnený ako torrent.

Pohľad: Yandex nie je Google

Ak si chcete prečítať úplný zoznam určujúcich faktorov hodnotenia vyhľadávača Yandex, nezabudnite, že Yandex nie je Google. Ak spoločnosť Yandex uvádza faktor hodnotenia, neznamená to, že by aj spoločnosť Google priradila tomuto signálu rovnakú váhu.

Podľa Bleeping Computer sa kód objavil ako torrent na známom hackerskom fóre:

„…leaker nahral magnetový odkaz obsahujúci 44,7 GB súborov, o ktorých tvrdí, že pochádzajú zo „zdrojov git spoločnosti Yandex“ a boli prevzaté z korporácie v júli 2022. Tvrdí sa, že okrem antispamových smerníc sa v týchto úložiskách kódu nachádza celý zdrojový kód spoločnosti.“

Odpoveď spoločnosti Yandex

Ako únik informácií ho označuje aj samotná spoločnosť Yandex. Yandex sa najprv domnieval, že bol hacknutý, keďže kód sa objavil na známej hackerskej stránke. Spoločnosť Yandex to popiera ale podľa Ars Technica Yandex údajne zamestnáva niekoľko bývalých pracovníkov spoločnosti Google. V júli 2022 boli údajne spoločnosti Yandex ukradnuté jej súbory. Predpokladá sa, že zdroj kódu obsahuje zdrojový kód spoločnosti Yandex, ako aj antispamové pravidlá. V ukradnutých údajoch sa nachádza množstvo premenných hodnotení ako relevancia textu, PageRank, vek obsahu, čerstvosť atď.