Stap 2: Uw eerste schrapen: grijpen de gebruikersnamen uit een Reddit thread
https://www.reddit.com/r/Arduino/comments/3rixq5/i...
De eerste stap in het opbouwen van een schraper is altijd gonna be
het identificeren van wat onze kerngegevens heet onder. In dit geval willen we alle de gebruikersnamen in de commentaren van een reddit draad. Dus gaan we naar het gebruiken van google chrome inspecteren element hulpmiddel om erachter te komen wat de gebruikersnaam wordt aangeduid als. (afbeelding 1)
Dit moet leiden tot de volgende terminal met de gebruikersnaam gemarkeerd: (2)
We zien dat alle gebruikersnamen in een reddit thread zijn gerelateerd aan de banden met de klasse 'Auteur'. Nu hier het moeilijke deel is: we moeten een manier om te sorteren door alle elementen op de verschillende webpagina's te krijgen door aan de code in de klasse 'Auteur'. Zoals u het is niet een gemakkelijke reis zien kunt omdat deze links liggen de:
< div class = "commentarea" >
die vervolgens druppels neer in
< div id = "siteTable_t3_3rixq5" class = "sitetable nestedlisting" >
die druppels in nog meer HTML-elementen. Tot een minimum beperken de
bedrag van javascript we schrijven moeten, we gaan voor het uitbesteden van het werkelijke parseren van onze web-pagina van Yahoo YQL taal. Dit zal traverse via alle andere HTML-elementen en keren ons deze kostbare codes die wij wensen. Maak je geen zorgen als je in de war nu; de volgende stap zal dingen duidelijker maken.