Technische Notizen eines Informatikers: Prozesse - Aktivitäten - Services - Test - Composition - Orchestrierung - Wiederverwendung - InBetriebnahme - Optimierung - AusBetriebnahme. Geschäftsobjekte - Ressourcen - mathematische Optimierung (OR) - Algorithmenbau für naturanaloge Näherungsverfahren in Logistik und im Gesundheitswesen
20.01.2015
Screen Srcaping – Auslesen von fremden Internetseiten
Jährlich grüßt das Bundesliga Tippspiel, wohl dem, der sich die nötigen Informationen schnell aus dem Internet zusammen suchen kann. Z.B. wäre ja eine Quelle die Quoten der Onlinewetten-Anbieter.
Das Auslesen nennt sich Screen Scraping (http://de.wikipedia.org/wiki/Screen_Scraping).
Eine Idee ist das A9-Verfahren(http://de.wikipedia.org/wiki/A9.com), das zur Zeit zum Auslesen von Produkt-Informationen eingesetzt wird (http://a9.com/whatwedo/product-search/), das scheint ein boomender Markt zu sein, (Stand August 2014), mehr als 30 zu besetztende Stellen für gut bis hoher qualifizierte Personen…
A9 / Amazon entwickelte das “OpenSearch” (http://de.wikipedia.org/wiki/OpenSearch, http://www.opensearch.org/Home), damit eine Sammlung von Verfahren, und später eine Spec. unter CC.
Das hilft nur zum Verständnis wie Seiten ausgelesen werden, wie sehen Tools aus?
Jede Programmiersprache hat seine eigene Methoden, um Webseite auszulesen und dann zu parsen, oder machanisch auszulesen. Mit Perl: (http://www.perl.com/pub/2003/01/22/mechanize.html), mit Java (http://jsoup.org/cookbook/introduction/parsing-a-document) mit VBA/Excel (http://www.herber.de/forum/archiv/1044to1048/1044769_Inhalt_aus_URLWebseiten_auslesen.html);
oder mir Skriptsprachen wie Greasemonkey (http://de.wikipedia.org/wiki/Greasemonkey) als Addon für Firefox
Webdienst zur Auswahl von Webseiten, bei deren Veränderung man benachrichtigt wird: http://feedity.com/default.aspx
Quellen:
http://de.wikipedia.org/wiki/Screen_Scraping
https://a9.com/careers/
Keine Kommentare:
Kommentar veröffentlichen