Je třeba poznamenat, že psaní kódu předchází důkladná práce na studiu zdroje dat, jeho struktury, objemu dat, vzájemných vztahů mezi jednotkami informací atd. Je nutné určit technologie používané pro provoz webu. Na základě analýzy získaných informací se určí přístupy k psaní programu.
Obvykle jedna stránka průměrné složitosti zabere dva dny až týden v závislosti na aktuálním vytížení.
Hlavní čas je tvořen dobou potřebnou k načtení stránky (dat) ze serveru. Poté je sběr informací téměř okamžitý. To znamená, že pokud již znáte zdrojovou stránku, můžete změřit průměrnou dobu načítání a vynásobit ji počtem stránek, ze kterých potřebujete shromáždit informace. Čas může být také ovlivněn nestabilitou připojení, problémy na serveru zdrojového webu, blokováním atd.
Sběr informací z jiných zdrojů (služby API, textové soubory, databáze, tabulková data) je poměrně rychlý a trvá několik minut. Zde je hlavní čas věnován psaní programu pro parsování.
Tento krok nemusí být nutný, pokud je struktura vašeho webu a zdrojového webu zcela shodná. To se však stává velmi zřídka. Kromě toho je často nutné shromažďovat data z různých zdrojů, jejichž struktury jsou také jen zřídka totožné.
Shromážděná data je třeba uvést do společného formátu, určit společné měrné jednotky pro všechna data, vyloučit duplicity a synonyma a nakonec vytvořit potřebný typ katalogu.
Někdy je užitečné navrhnout takový katalog v podobě samostatného malého programu, jakési databáze, která bude vždy po ruce pro rychlé vyhledávání i pro různé druhy experimentů se strukturou dat. Bude také užitečný, pokud budete v budoucnu potřebovat rychle porovnat stávající data s novými zdroji.
Když je vaše datová struktura připravena, stále se jedná o abstrakci. To znamená, že katalog má kategorie, produkty mají atributy, ale abyste to všechno mohli importovat do webu, musíte vytvořit ovladač pro konkrétní architekturu databáze webu.
Jinými slovy, je třeba vytvořit jakousi mapu, podle které program rozvrhne vaše data (obvykle speciálně připravené excelovské tabulky) v databázi webu.
Samotný proces importu do značné míry závisí na vašem hostingu, rychlosti jeho práce, různých omezeních, která jsou na něj kladena, a také na složitosti struktury katalogu i samotného produktu. Čím více produktů bude načteno, tím bude proces nakonec pomalejší.
Například proces načtení tisíce produktů s jedním obrázkem do prázdného internetového obchodu založeného na systému WordPress nezabere ani na slabém hostingu více než hodinu. Pokud však stejnou operaci provedete ve chvíli, kdy je na webu již 150-200 tisíc produktů, může to trvat několik hodin a s největší pravděpodobností to bude vyžadovat rozdělení na menší dávky importu.
Neexistuje žádné omezení, jak budete osobně „konzumovat“ veřejně dostupné informace: očima, ušima, prsty nebo technickými zařízeními, zda si je zapamatujete, a pokud ano, jak to uděláte. Nikdo vám nezakazuje analyzovat nebo strukturovat informace vlastním mozkem nebo pomocí technických pomůcek.
Otázka legitimity začíná od okamžiku použití. A zde vše záleží na samotné informaci, jaká práva k ní nebo k souvisejícím produktům jsou stanovena (autorská, obchodní, licenční…), zda ji můžete šířit jako vlastní nebo svým jménem, zda ji můžete prodávat bez licence nebo souhlasu držitele práv atd. Vzhledem k tomu, že v každé konkrétní situaci je mnoho otázek, je lepší se pro každý konkrétní případ poradit se specializovaným právníkem. Za sebe vám to vřele doporučuji, abyste se vyhnuli budoucím potížím.