Řekni, jak se jmenuješ, a já ti povím, kolik ti je let
Nedávno jsem na webu FiveThirtyEightLife našel článek, který zajímavým způsobem odhaduje věk podle křestních jmen. 

Inspiroval jsem se a chtěl něco podobného udělat i pro česká jména. Začal jsem ale špatně, viz starší dokument s nejčastějšími českými jmény. Počet žijících osob jsem počítal přes úmrtnostní tabulky a neuvědomil si, že Ministerstvo vnitra už udělalo práci za mě. Na svém webu každý rok zveřejňuje četnost křestních jmen žijících osob, rozdělenou podle let jejich narození.

Aktualizace 27. listopadu 2015: Zdrojová tabulka se jmény je nějakým zvláštním způsobem kódovaná a regulární výraz, který měl odstranit složená jména, vzal velké písmeno Š jako mezeru. Takže odstranil třeba i Šárku nebo Šimona. Tato jména, celkem jich bylo asi 25, jsou zpět.

Jak zjistit věk z křestního jména?

Oblíbenost křestních jmen se velmi mění. Některá jsou stálice, jiná vydrží v módě jen několik let. Když potom víte, že třeba taková Stela se ve větší míře začala objevovat až v posledních letech, dá se s vysokou pravděpodobností odhadnout, že holčičce s tímto jménem budou průměrně 4 roky.

Ukážu to konkrétně

Na následujícím obrázku jsou počty Martinů, kteří žili v roce 2014, podle roku jejich narození. Nejvíc se jich narodilo v roce 1976.
Pro odhad věku průměrného Martina je ale důležitější medián. Počet žijících Martinů se rozdělil na poloviny v roce 1982 – loni tady byl stejný počet těch, kteří se narodili před 1982, jako těch, kteří byli mladší. 

Když si tedy chcete jedním číslem tipnout věk průměrného Martina, nejmenší chybu uděláte sázkou na 33 let.

Jistější ale bude určit rozmezí. Vedle mediánu jsem proto vypočítal ještě 1. (dolní) a 3. (horní) kvartil (resp. 25. a 75. percentil). Získal jsem tím roky, ve kterých se Martinové dělí na čtvrtiny:

  • Rok narození 1992: přesně 3/4 Martinů jsou starších a 1/4 mladší
  • Rok narození 1974: přesně 1/4 Martinů je mladší, 3/4 jsou starší

To znamená, že polovina žijících Martinů je ve věku 23 až 41 let.  Ze současného průměrného věku dožití 75 let jsme tím vykousli poměrně přesnou čtvrtinu. A to je navíc Martin dlouho oblíbené jméno, u některých jiných se dá interval určit řádově na roky.

Jak číst grafy

Stejné výpočty jako u Martina jsem provedl pro každé jméno v databázi. Trochu jsem filtroval: odstranil složená jména, nastavil si podmínku minimálního počtu pěti žijících. I tak zůstalo 4 478 jmen, u kterých teď dokážu odhadnout, jak jsou jejich nositelé nejčastěji staří.

Výsledky ukážu na grafech, všechna jména pak najdete v tabulce. Grafy znázorňují to, co jsem před chvílí popisoval. Třeba toto je Martin:
Červená tečka s černým textem (33 let) je medián, kolem tohoto věku se seskupilo nejvíc žijících Martinů. Levá část grafu ohraničuje 1. kvartil (23 let), pravá část třetí kvartil (41 let). V barevném rozmezí je polovina všech žijících Martinů.

Nejčastější jména

Jdeme na to. Tohle jsou nejčastější jména osob, které v roce 2014 žily v České republice. Rozdělil jsem je na mužská a ženská a seřadil od nejmladších. Na obrázky můžete kliknout, zvětší se.
Ještě pro jistotu jeden příklad interpretace: Nejmenší chybu uděláte tipem, že Adamovi je kolem 11 let. Když to chcete mít přesnější a obsáhnout polovinu všech Adamů, bude na to stačit interval 6 až 20 let.

Nejmladší jména

Teď se podívejte na jména, která jsou nejmladší – která přišla do módy až v posledních letech. Musel jsem si tady už nastavit limit minimálního počtu pojmenovaných dětí: u chlapců jsem dal 500 osob, u dívek 1000, protože variabilita jejich jmen je mnohem vyšší. Je téměř jisté, že Eliáš nebo Ella teprve půjdou do základní školy.

Nejstarší jména

Toto je opačný pohled: na jména, u kterých si můžete skoro vsadit, že jejich nositelé jsou už v důchodu. Také tady jsem nastavil limit minimálního počtu žijících osob, teď už u obou pohlaví na 500.
Všimněte si, že šířka grafů je mnohem větší než u předchozí dvojice nejmladších jmen. Módní vlivy jsou dnes při volbě křestního jména mnohem silnější, než bývaly dřív.

Nejdéle oblíbená jména

Poslední dvojice je seřazená podle šířky grafu. U těchto jmen věk nelze uspokojivě odhadnout, interval je příliš široký. 
Nedá se ale říct, že by všechna tato jména byla po celou dobu konstantně oblíbená. Histogram často zobrazí vlny, jak je to vidět na následujícím grafu s příkladem Metoděje. První vlna jeho oblíbenosti byla ve 30.–40. letech, další začala až kolem roku 2010. Výsledkem je 64 let široké mezikvartilové rozpětí.

A kde jsem já?

Jestli jste se nenašli v grafech a nemáte tak unikátní křestní jméno, že je vás v České republice méně než pět, budete určitě v této tabulce: 
Dokážu si vlastně představit i další situaci, kdy se nebudete moci najít. Databázi ministerstva vnitra jsem slučoval s tabulkou, která rozdělovala jména na muže a ženy. Je možné, že při této operaci ještě nějaká jména odpadla. Myslím ale, že se najdete.