Kde to jsem?

Tato stránka patří Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy v Praze a podává základní informace o činnosti robota textractor. Tento robot periodicky prochází veřejně dostupné webové stránky a získává data, která jsou využívána výhradně pro výzkumné účely v oblasti komputační lingvistiky a zpracování přirozeného jazyka na pracovišti ÚFAL MFF UK a nejsou nijak dále šířena. S připomínkami nebo dotazy se prosím obraťte na emailovou adresu správce tohoto robota..

Vaše možnosti omezení činnosti robota

K vyloučení robotů ze statistik lze využít jejich identifikaci (textractor). Případná zátěž na vaší straně by měla zůstat téměř neznatelná. Přesto můžete z různých důvodů spatřovat přítomnost robotů na vašich serverech či stránkách jako nežádoucí, například když víte, že vystavujete stránky, které nemá cenu indexovat. Pro tyto a další případy existují tyto možnosti:

robots.txt

Identifikaci robota (textractor) můžete využít k omezení přístupu k souborům i celým složkám v rámci celého vašeho serveru. Jak toho docílit popisuje nezávazné doporučení o robots.txt.

meta značky

Dalším způsobem je využití značky meta hlavičkách HTML souborů. To je výhodné pro omezování na úrovni jednotlivých stránek. Například ze stránky se značkou meta <meta name="robots" content="nofollow"> nedochází k následování odkazů. Podobnosti lze nalézt v odpovídající nezávazné specifikaci.

Úplná identifikace robota vypadá v záznamech webového serveru asi takto: textractor/0.6 (+http://ufal.mff.cuni.cz/textractor/). Verze se může pochopitelně měnit.

Jak jsme robota omezili my

Náš robot se snaží o »přijatelnou zátež« na webových serverech, které navštěvuje. Kromě toho, že by měl stahovat téměř výhradně stránky s českým obsahem, jsme implementovali tato omezení:

Prodleva mezi třemi požadavky na jeden host (tedy dva mohou přijít rychle za sebou, třetí o to později)
nejméně 5 sekund
Počet souběžně kontaktovaných virtuálních hostů na jedné IP adrese
nejvýše 5
Počet požadavků na jednoho virtuálního hosta
nejvýše 500 dle výše uvedených parametrů, poté nastává »generální prodleva« (celé IP adresy) nejméně 15 minut
Identifikace (User-agent)
textractor

Porušujeme vlastní pravidla?

Náš robot je experimentální software a je možné, že díky dosud neodhalené chybě způsobuje nezamýšlenou zátěž. Za to se omlouváme, a pokud to ze svých záznamů odhalíte, oznamte to prosím správci tohoto robota.. K nápravě dojde co nejdřív.

Pro zjednání rychlé nápravy je zapotřebí, aby vaše oznámení obsahovalo všechny potřebné informace:

  1. vaše kontaktní údaje
  2. adresu vašeho serveru (IP adresa, hostname, číslo portu)
  3. krátký popis závady, proč si myslíte, že se jedná o chybu na naší straně
  4. výpis té části logů, které dokladují existenci chyby
  5. co nejpřesnější vymezení času, ke kterému se vztahují logy

Například:

Dobrý den,
jsem správcem webového serveru www.---.cz:80. Váš robot zřejmě nedodržuje ani rozumnou, ani Vámi udávanou prodlevu mezi požadavky, přišlo jich totiž během deseti minut nejméně dvanáct tisíc, než se náš stroj zhroutil. Přikládám výpis logu, čas je uveden v GMT a může se od skutečného lišit až o 14 minut.

S pozdravem,
Dan Lessner
Tel: 666-000000