Data-Mining Tool als Mahnung und Denkanstoß
Dieser Text ist im Cache von metaowl.de - das Original ist hier zu finden.
Zugegeben, treffsichere, stets zuverlässige und übersichtliche Ergebnisse liefert das private Data-Mining Tool Evolution von Roelof Temmingh in der Webinterface-Variante noch nicht, aber es steht ja noch am Anfang.

Evolution Abfrage mit dem Webinterface im Selbstversuch.
Auch die Data-Mining Programme, die von Sicherheitsbehörden und Geheimdiensten eingesetzt werden, habe mit ähnlichen Schwierigkeiten zu kämpfen. Aber es liefert allen Internetnutzern, ob jung oder alt, die allzu bereitwillig und in großem Umfang alle möglichen Daten und Informationen in die "sozialen Plattformen" des "Web 2.0" einspeisen, bereits einen Eindruck, was man bereits mit kleineren Programmen im Beta-Stadium alles an Informationen und Daten an die Oberfläche befördern und verknüpfen kann. Denjenigen, die ihre helle Freude daran haben, anderen Zeitgenossen hinterher zu spionieren oder die Daten brauchen, um die Identität des Ausspionierten für eigene Zwecke wie Identitätsdiebstahl und Social Engineering zu nutzen, wird das Tool auch nicht missfallen.
Temmingh selbst will, wie er sagt, mit seinem Tool vor allem auf die negativen Auswirkungen auf den Einzelnen aufmerksam machen, die eine unbedarfte Nutzung des "Web 2.0" und seiner Nachfolger in der Zukunft bei gleichzeitig fehlendem Privatsphärebewußtsein hervorrufen können:
Aber während man diese Daten einzeln erheben, zusammenfügen und daraus weitere Rechercheziele ableiten muss, was zeitaufwendig und mühselig ist, braucht man bei "Evolution" nur ein oder mehrere Merkmale in das von Suchmaschinen gewohnte Suchfeld eingeben, die zu einer Person bekannt sind. Danach führt "Evolution" im Hintergrund u. a. die obigen und mit größerem Entwicklungsstand vermutlich um weitere Data-Mining Abfrageziele erweiterten Suchen aus, generiert u. a. eine Wortliste, die im Zusammenhang mit einer Person öfters auftauchen, extrahiert relevante Daten und verwendet die wiederum als Basis weiterer Abfragen für neue Daten. Das macht das Programm über "Transformationen von Entitäten".
Zu den Entitäten zählen zum Beispiel Mitgliedschaft, Betriebszugehörigkeit, Domainname, IP-Adresse, Ort, Telefonnummer usw. Die Transformationen führen dann zum einen die Übersetzung einer Entität in eine andere durch wie zum Beispiel die bekannte Auflösung eines Domainnamens in eine IP-Adresse, zum anderen stellen sie (mögliche) Beziehungen zwischen verschiedenen Entitäten her. Zum Beispiel welche Telefonnummer steht in Verbindung zu welcher E-Mail Adresse und auf welche Namen verweist die E-Mail Adresse, mit welchen weiteren Telefonnummern steht dieser Name außerdem in Verbindung.
Also genau das, was das Ziel der Auswertung der Daten ist, die im Rahmen der Vorratsdatenspeicherung oder von Rasterfahndungen erhoben werden – nicht von Temminghs Kriminellen, sondern im Auftrag des Staates. Dort hat es man ja auch noch mit einem relativ begrenzten "Pool von Entitäten" zu tun, da auf die Auswertung der Inhaltsdaten und der abgerufenen URLs (noch) verzichtet wird: Vor- und Nachnamen, E-Mail Adresse, Telefon-, SIP-, IP-Nummer, Ort.
Wie alle Data-Mining Programme wird also nicht nur ein isoliertes Profil einer einzelnen Person entworfen, sondern es können auch mögliche Beziehungsgeflechte konstruiert und visualiert werden. Das sieht dann in der graphischen Variante von "Evolution" so aus: Klar, kommerzielle und professionelle Data-Mining Programme gehen noch darüber hinaus. Bei Programmen für militärische oder zivile Geheimdienstbehörden werden z. B. die Daten in 3D visualisiert, der Analyst kann in interessierende Bereiche hineinzoomen, relevante Ausschnitte werden automatisch nach zuvor definierten Kriterienkatalogen markiert usw. Aber für eine Bastel-Beta ist das doch schon ganz nett.
Die Ausgangsentität auf diesem Bild ist übrigens die Domain der amerikanischen CanSecWest Konferenz für IT-Sicherheit, auf der Roelof Temmingh "Evolution" vorstellte.
Was aus "Evolution" wird, wird man sehen – ich habe mich jedenfalls als Beta-Tester gemeldet

Evolution Abfrage mit dem Webinterface im Selbstversuch.
Temmingh selbst will, wie er sagt, mit seinem Tool vor allem auf die negativen Auswirkungen auf den Einzelnen aufmerksam machen, die eine unbedarfte Nutzung des "Web 2.0" und seiner Nachfolger in der Zukunft bei gleichzeitig fehlendem Privatsphärebewußtsein hervorrufen können:
"Web 2.0 contains great technology, but little is known about the security implications when that technology is actually used (...) Real criminals don't write buffer overflows, they follow the route of least resistance (...) [Criminals] will be able to have tools to merge this information together to manipulate outcome of certain events".
Was "Evolution" bereits kann, wird in dem CNET Artikel Tool mines personal data from across Net und dem eWeek Artikel Tools Will Help Personalize ID Theft by 2010 beschrieben. Eigentlich vieles, was man selbst auch ohne eigenständiges Programm durchführen kann: Abfragen der whois Datenbanken, von Telefonverzeichnissen, das Stöbern in Suchmaschinen mit ausgefeilten Suchparametern, sozialen Netzwerken und Weblogplattformen, Abfragen zur Namensauflösung etc.Aber während man diese Daten einzeln erheben, zusammenfügen und daraus weitere Rechercheziele ableiten muss, was zeitaufwendig und mühselig ist, braucht man bei "Evolution" nur ein oder mehrere Merkmale in das von Suchmaschinen gewohnte Suchfeld eingeben, die zu einer Person bekannt sind. Danach führt "Evolution" im Hintergrund u. a. die obigen und mit größerem Entwicklungsstand vermutlich um weitere Data-Mining Abfrageziele erweiterten Suchen aus, generiert u. a. eine Wortliste, die im Zusammenhang mit einer Person öfters auftauchen, extrahiert relevante Daten und verwendet die wiederum als Basis weiterer Abfragen für neue Daten. Das macht das Programm über "Transformationen von Entitäten".
Zu den Entitäten zählen zum Beispiel Mitgliedschaft, Betriebszugehörigkeit, Domainname, IP-Adresse, Ort, Telefonnummer usw. Die Transformationen führen dann zum einen die Übersetzung einer Entität in eine andere durch wie zum Beispiel die bekannte Auflösung eines Domainnamens in eine IP-Adresse, zum anderen stellen sie (mögliche) Beziehungen zwischen verschiedenen Entitäten her. Zum Beispiel welche Telefonnummer steht in Verbindung zu welcher E-Mail Adresse und auf welche Namen verweist die E-Mail Adresse, mit welchen weiteren Telefonnummern steht dieser Name außerdem in Verbindung.
Also genau das, was das Ziel der Auswertung der Daten ist, die im Rahmen der Vorratsdatenspeicherung oder von Rasterfahndungen erhoben werden – nicht von Temminghs Kriminellen, sondern im Auftrag des Staates. Dort hat es man ja auch noch mit einem relativ begrenzten "Pool von Entitäten" zu tun, da auf die Auswertung der Inhaltsdaten und der abgerufenen URLs (noch) verzichtet wird: Vor- und Nachnamen, E-Mail Adresse, Telefon-, SIP-, IP-Nummer, Ort.
Wie alle Data-Mining Programme wird also nicht nur ein isoliertes Profil einer einzelnen Person entworfen, sondern es können auch mögliche Beziehungsgeflechte konstruiert und visualiert werden. Das sieht dann in der graphischen Variante von "Evolution" so aus: Klar, kommerzielle und professionelle Data-Mining Programme gehen noch darüber hinaus. Bei Programmen für militärische oder zivile Geheimdienstbehörden werden z. B. die Daten in 3D visualisiert, der Analyst kann in interessierende Bereiche hineinzoomen, relevante Ausschnitte werden automatisch nach zuvor definierten Kriterienkatalogen markiert usw. Aber für eine Bastel-Beta ist das doch schon ganz nett.
Die Ausgangsentität auf diesem Bild ist übrigens die Domain der amerikanischen CanSecWest Konferenz für IT-Sicherheit, auf der Roelof Temmingh "Evolution" vorstellte.
Was aus "Evolution" wird, wird man sehen – ich habe mich jedenfalls als Beta-Tester gemeldet
von rabenhorst - Owl,
gepostet am Freitag, 20. April 2007 um 20:10


