PočítačeProgramování

Co je crawler? crawler nástroj "Yandex" a Google

Každý den na internetu existuje obrovské množství nových materiálů pro vytvoření webové stránky aktualizovány staré webové stránky, odesílat fotografie a videa. Bez skrytých z vyhledávačů nelze nalézt na World Wide Web, žádný z těchto dokumentů. Alternativy, jako robotických programů v daném okamžiku neexistuje. Co je to vyhledávací robot, proč to a potřebujeme, jak fungují?

Co je to vyhledávání robot

site Crawler (vyhledávače) - jedná se o automatický program, který je schopen navštívit miliony webových stránek, rychlé procházení internetu bez jakéhokoliv zásahu obsluhy. Boti jsou neustále skenování prostor na World Wide Web, hledání nových webových stránek a pravidelně navštěvovat již indexována. Jiná jména pro prohledávače pavouků, roboti, boty.

Proč jsou pro vyhledávání pavouci

Hlavní funkce, které provádějí vyhledávání pavouci - webové stránky indexovány, stejně jako text, obrázky, audio a video soubory, které jsou na ně. Roboty zjistit reference, zrcadlo stránky (kopie) a aktualizace. Roboti také provádět kontrolu HTML kód pro standardy shody Světové organizace, která vyvíjí a implementuje technologické standardy pro World Wide Web.

Co je to indexování, a proč je to potřeba

Indexace - je ve skutečnosti, je proces návštěvě konkrétní webové stránky pomocí vyhledávačů. Program skenuje text na těchto stránkách, obrázky, videa, odchozí odkazy, pak je stránka se zobrazí ve výsledcích vyhledávání. V některých případech, tyto stránky vám nemohou být kontrolovány automaticky, pak to může být přidány do vyhledávače ručně webmaster. Obvykle k tomu dochází v nepřítomnosti externích odkazů na konkrétní (často teprve nedávno vytvořené) stránky.

Jak hledat pavouci

Každý vyhledávač má svůj vlastní bota s vyhledávacím robotem Google může výrazně lišit v závislosti na mechanizmu pracuje na podobném programu, „Yandex“ nebo jiných systémů.

Obecně platí, že pracovní princip robot je následující: Program „přijde“ na místě a externí odkazy na hlavní stránce, „čte“ webového prostředku (včetně těch, při pohledu režie nevidí uživatele). Loď je, jak se orientovat mezi stránkami webu a přesunout na jiné.

Program bude zvolit, která místa na indexu? Častěji než ne „trip“ pavouk začne zpravodajských serverů nebo hlavní adresáře zdrojů a uskupení s velkou referenční hmotnosti. Crawler průběžně naskenuje stránky jednu po druhé, na rychlost a konzistenci indexování následující faktory:

  • Vnitřní: perelinovka (vnitřní vazby mezi stránkami téhož zdroje), velikost místa, správný kód, uživatelsky přátelské a tak dále;
  • Externí: celková referenční hmotnosti, což vede k webu.

První věc, kterou vyhledávač robot vyhledává na libovolné webové stránky pomocí souboru robots.txt. indexování další zdroj je prováděno na základě obdržené informace, že je z tohoto dokumentu. Tento soubor obsahuje specifické pokyny pro „pavouky“, které mohou zvýšit šance na návštěvě stránek pomocí vyhledávačů, a v důsledku toho, aby se dosáhlo hit místo v rané fázi „Yandex“ nebo Google.

Program analogy prohledávače

Často termín „vyhledávání robot“ je zaměňována s inteligentní, uživateli nebo autonomních agentů, „mravenci“ nebo „červi“. Ponořené významné rozdíly pouze ve srovnání s látkami, ostatní definice se vztahují na podobné typy robotů.

Například činidla mohou být:

  • duševní: program, který se pohybuje z místa na místo, a to nezávisle rozhodování o tom, jak postupovat; nejsou příliš běžné na internetu;
  • Autonomní: Tyto látky pomáhají uživateli při výběru produktu, vyhledávání nebo vyplňování formulářů, tzv filtry, které jsou jen málo souvisí s programy v síti;.
  • Uživatel: program přispívá k interakci uživatele s World Wide Web, prohlížeč (například Opera, IE, Google Chrome, Firefox), poslové (Viber, Telegram) nebo e-mailových programů (MS Outlook a Qualcomm).

„Mravenci“ a „červi“ jsou podobné vyhledávače „pavouky“. První forma mezi sítí a konzistentně komunikovat takhle mravenčí kolonie, „červi“ je schopen replikovat v jiných ohledech stejné jako standardní crawler.

Různé roboty vyhledávačů

Rozlišovat mezi mnoha typy roboti. V závislosti na účelu tohoto programu jsou:

  • „Mirror“ - duplikáty procházení webových stránek.
  • Mobile - zaměření na mobilní verzi webových stránek.
  • Quick - stanovit nové informace rychle zobrazením nejnovější aktualizace.
  • Reference - reference index, počítat jejich počty.
  • Indexery různé typy obsahu - specifické programy pro text, audio, video, obrázky.
  • „Spyware“ - hledá stránky, které dosud nejsou zobrazeny ve vyhledávači.
  • „Datel“ - pravidelně navštěvovat stránky, kontrolovat jejich vhodnost a účinnost.
  • National - procházení webových zdrojů umístěných na jedné z domén zemí (např .mobi nebo .kz .ua).
  • Global - index všechny národní lokality.

Roboti velkých vyhledávačů

Existuje také několik vyhledávačů. Teoreticky, jejich funkčnost se může měnit v širokém rozmezí, ale v praxi programy jsou téměř identické. Hlavní rozdíly indexování webových stránek roboty dva hlavní vyhledávače jsou následující:

  • Přísnost testování. Předpokládá se, že mechanismus crawler „Yandex“ poněkud přísnější odhaduje v místě z hlediska souladu s normami World Wide Web.
  • Zachování integrity webu. Prohledávač Google indexuje celý web (včetně mediálního obsahu), „Yandex“ lze také zobrazit obsah selektivně.
  • Speed Test nové stránky. Google přidává nové zdroje ve výsledcích vyhledávání během několika dní, v případě, že „od Yandex“ proces může trvat dva týdny nebo více.
  • Četnost re-indexování. Pásové „Yandex“ zkontrolovat aktualizace dvakrát týdně, a Google - jedna každých 14 dní.

Internet samozřejmě není omezen na obou vyhledávačů. Jiné vyhledávače mají své roboty, kteří sledují své vlastní indexování parametry. Kromě toho existuje několik „pavouci“, které jsou navrženy tak, nejsou významné pro vyhledávání zdrojů a jednotlivé týmy nebo webmasteři.

společné mylné

Na rozdíl od všeobecného přesvědčení, „pavouci“ nezpracovávají informace. Program pouze kontroluje a ukládá webové stránky a další zpracování trvá zcela odlišné roboty.

Také, mnoho uživatelů se domnívají, že vyhledávačů mají negativní dopad a „škodlivé“ Internet. Ve skutečnosti, některé verze „pavouků“ může výrazně přetížení serveru. K dispozici je také lidský faktor - webmaster, který vytvořil program, mohou dělat chyby v konfiguraci robota. Přesto většina stávajících programů jsou dobře navrženy a profesionálně spravované, a případné vzniklé problémy rychle odstraněny.

Jak řídit indexování

Roboti vyhledávačů jsou automatizované programy, ale proces indexování může být částečně řízen webmastera. Toto velmi pomáhá vnější a vnitřní optimalizace zdroje. Kromě toho můžete ručně přidat nový web do vyhledávače: velké zdroje mají zvláštní formu registrace webových stránek.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 cs.delachieve.com. Theme powered by WordPress.