Stap 2: Schone datasets
Dit was een iteratief proces en uiteindelijk heb ik het gesorteerd op uit, maar niet zonder een heleboel uren en hoofdpijn.
Het belangrijkste probleem met de gegevens is dat:
(1) het was niet geheel schoon, wat betekent dat de pijp gegevens niet met alle knooppunten overeenkomen. Er waren sommige id-tekenreeksen die werden gedupliceerd, mist en meer. Meestal was het prima, maar het algoritmische zorg nodig.
(2) wanneer ik de knooppunten gemonteerd, waren er een heleboel kleine, geïsoleerde sub netwerken in plaats van één gigantisch netwerk van gegevens. Ik ben begonnen met ongeveer 30.000 gegevenspunten en het "primaire" netwerk was ongeveer 28.000 punten. Mij trachten opwaarts having allerlei mini-netwerken voor pijp data: overal van 2-100 in grootte. Als een object in de 3d-gedrukte, dit moeten een enkel, samenhangend object, anders de 3D print uit elkaar zal vallen.
Mijn parser code doet haar best te reinigen up van de gegevens en negeren wat ik niet nodig hebt.
Ik schreef code in Java, dat niet de meest effectieve motor is: het is langzaam én code-zware, maar het is een taal die ik goed ken zijn er veel handige JSON-bibliotheken voor het zoals de eZoon bibliotheek.
De json-libs in OpenFrameworks — de open-source C++ toolkit — zou geweest zijn snelle, maar vereisen een heleboel extra compileren. Ook zodra ze uitvoert, eindigen ze niet geven me de aanpassingsmogelijkheden die ik heb in de Javas gegevens veld uitvoer.
Python biedt goede parseren instrumenten, maar niet een waardig genoeg UI. JavaScript is waarschijnlijk de beste oplossing, maar ik weet niet het milieu goed genoeg (nog).