20.01.2015

Screen Srcaping – Auslesen von fremden Internetseiten


Jährlich grüßt das Bundesliga Tippspiel, wohl dem, der sich die nötigen Informationen schnell aus dem Internet zusammen suchen kann. Z.B. wäre ja eine Quelle die Quoten der Onlinewetten-Anbieter.
Das Auslesen nennt sich Screen Scraping (http://de.wikipedia.org/wiki/Screen_Scraping).
Eine Idee ist das A9-Verfahren(http://de.wikipedia.org/wiki/A9.com), das zur Zeit zum Auslesen von Produkt-Informationen eingesetzt wird (http://a9.com/whatwedo/product-search/), das scheint ein boomender Markt zu sein, (Stand August 2014), mehr als 30 zu besetztende Stellen für gut bis hoher qualifizierte Personen…
image

A9 / Amazon entwickelte das “OpenSearch” (http://de.wikipedia.org/wiki/OpenSearch, http://www.opensearch.org/Home), damit eine Sammlung von Verfahren, und später eine Spec. unter CC.
Das hilft nur zum Verständnis wie Seiten ausgelesen werden, wie sehen Tools aus?
Jede Programmiersprache hat seine eigene Methoden, um Webseite auszulesen und dann zu parsen, oder machanisch auszulesen. Mit Perl:  (http://www.perl.com/pub/2003/01/22/mechanize.html), mit Java (http://jsoup.org/cookbook/introduction/parsing-a-document) mit VBA/Excel (http://www.herber.de/forum/archiv/1044to1048/1044769_Inhalt_aus_URLWebseiten_auslesen.html);
oder mir Skriptsprachen wie Greasemonkey (http://de.wikipedia.org/wiki/Greasemonkey) als Addon für Firefox
Webdienst zur Auswahl von Webseiten, bei deren Veränderung man benachrichtigt wird: http://feedity.com/default.aspx




Quellen:
http://de.wikipedia.org/wiki/Screen_Scraping
https://a9.com/careers/

Keine Kommentare:

Kommentar veröffentlichen