Stap 1: Theorie achter het schrapen
Zo zeg, die ik had een eenvoudige website die eruit zag als de volgende
We kunnen zien dat de essentiële informatie die we willen in een reeks met de klasse "hiInstructables ligt". (Afbeelding 1) Het blijkt dat websites zeer consequent, zijn wanneer etikettering een stukje informatie. Dus kunnen we ervan uitgaan dat als er meerdere belangrijke stukjes informatie die we nodig hadden, zouden ze worden gelabeld allemaal met dezelfde klasse zoals dit: (afbeelding 2)
Dus pakt dit de essentie van het schrapen. Websites een bepaalde indeling gebruiken voor het labelen van hun inhoud. Als we wat uitzoeken kunnen dat formaat is, dan kunnen we een programma dat automatisch gezocht naar deze labels in dat formaat te krijgen van de gegevens die wij nodig hebben.