Xpath
V tomto příspěvku bude zpracován druhý úkol do předmětu ISKM55 Nástroje a metody datové analytiky. Přednáška, která úkolu předcházela, se soustředila na hledání a práci s Xpath a jeho následnou aplikaci. Na práci s těmito tématy byl zaměřen také druhý úkol, který je vypracován v pokračování článku.
- První část tohoto úkolu byla vytvořit si v Google Sheets dynamický seznam top 48 sporttesterů pomocí tří sloupců. Název, cenové rozpětí a také jejich hodnocení.
Začal jsem tím, že jsem si rozklikl webovou stránku Heureky s těmi položkami, které pro svůj dynamický seznam potřebujeme. Následně jsem si zapnul modul Xpath a se stisknutím shiftem jsem najel na název prvního produktu.
Následně jsem se pustil do redukce Xpath kódu, kde jsem se snažil najít příkaz, který nám označuje právě názvy produktu a odstranit definici, která nám označuje pouze první položku. Po chvíli zkoušení jsem se dostal k nejkratšímu kódu, který mi označí všechny názvy položek, které potřebuji.
Tento kód jsem si následně vložil do prázdné buňky Google Sheets, abych s ním později mohl pracovat a na tuto buňku se odkázat. Následně jsem vytvořil první sloupec mého dynamického seznamu. Vložil jsem vzorec =IMPORTXML a vložil jsem URL webu společně s kódem, který jsem si předtím vložil do prázdné buňky. Stránku URL jsem měl v jiné volné buňce a tak jsem se na obě buňky pouze odkázal ve vzorci.
Poté jsem udělal další dva sloupce, tedy cenové rozpětí a hodnocení, úplně totožným způsobem. Opět jsem si najel se shiftem na cenové rozpětí, popřípadě hodnocení a našel jsem si co nejkratší možný kód, který mi najde přesně ty položky, které do seznamu potřebuji. Pod tento odstavec vkládám screenshot, který vyobrazuje jak jsem měl kódy Xpath vloženy ve svém souboru a následně jsem se na ně odkazoval ve vzorci.
Když jsem potom aplikoval postup do všech tří sloupců, s tím že jsem vždy spojil adresu URL s příslušným Xpathem, který mi do seznamu vložil přesně ty hodnoty, které jsem potřeboval, můj seznam byl hotov.
Jediný, ale poněkud zásadní problém, na který jsem narazil, je posunutí mého seznamu. Jelikož produkty se mi vyobrazily všechny, ale cenové rozpětí, nebo ve více případech hodnocení není u všech produktů. Tento dynamický seznam nerozlišil, že u tohoto produktu není tato hodnota a nevynechal buňky. Tímto se tedy seznam “rozhodil” a hodnoty nebyly přesné. Vkládám obrázek posunutí.
Takto byl tedy můj úkol hotov. Na závěr této části úkolu přidávám také odkaz na můj soubor Google Sheets.
https://docs.google.com/spreadsheets/d/1JRnRFFp-eFJXRpLK3v2vwfZSlZOwhNQ9yI1uQuWI2YU/edit?usp=sharing.
2. Druhá část úkoly byla vyzkoušet si dva nástroje, které nám Pavel vložil do prezentace z přednášky.
Prvním nástrojem je Geneea, o které už jsem dříve slyšel a také si jí už zkusil. Tento nástroj slouží v podstatě ke zpracování textů, co se týče jeho různé vizualizaci a také zpracování klíčových slov.
Z textu tedy můžeme vytvořit pěkný vizuál, který může sloužit k prezentaci našeho textu. Hlavní výhodu tohoto nástroje ale vidím v analýze klíčových slov a tagů, která může být stěžejní pro marketingové specialisty. Já si vyzkoušel v šabloně najet na tag “Parlament”, který nástroj vyhodnotil jako klíčové slovo a ukázal se mi jeho výskyt v textu, přikládám obrázek.
Druhý nástrojem je Voyant Tools. Tento nástroj dělá z textu podobné vizuály, jako nástroj předchozí.
Dále tento nástroj můžeme využít taktéž k analýze textu. Ukáže nám detaily o našem nahraném souboru, konkrétně průměrný počet slov ve větě nebo nejčastěji zmíněná slova, což je podle mého názoru nejlepší statistika.
Tohle můžeme využít například k tomu, že můžeme v našem písemném přepisu výzkumu najít nejčastěji zmíněná slova a pomocí této analýzy si spojit některá fakta, která se prolínají napříč participanty. Dále se dá využít stejně jako první nástroj k marketingovým účelům.
Nakonec se můžeme podívat také na analýzu slov v grafu.