Data-Mining über alles für jeden
Dieser Text ist im Cache von metaowl.de - das Original ist hier zu finden.
Im Beitrag Data-Mining Tool als Mahnung und Denkanstoß habe ich bereits das Paterva Evolution Projekt von Roelof Temmingh vorgestellt.
Bisher war es nur möglich, Evolution über ein Webinterface zu bedienen, das aber bereits durch eine geführte Suchanfrage ergänzt wurde, die dem Benutzer die Formulierung von Suchanfragen erleichtert.
In der Zwischenzeit wurden Evolution weitere Quellen hinzugefügt, die man "ausbeuten" kann – darunter einige soziale Netzwerke wie Orkut, Facebook, MySpace, der MIT PGP Keyserver wird abgefragt, die MSN und ICQ Verzeichnisse, GoogleBooks, Wikipedia und vieles mehr.
Zur Zeit sucht Roelof auch nach einem Weg, die Jabber Nutzerverzeichnisse oder Skype abzugrasen und hofft auf Hinweise, welche Webdienste das bereits anbieten oder welche API er dafür nutzen könnte.
Seit gestern kann man sich auch die erste Beta für Windows/*nix herunterladen, mit der man Evolution als eigenständiges Javaprogramm laufen lassen und für Data-Mining Experimente nutzen kann. Unter Windows ist neben Java auch die Installation des .NET 2.0 Frameworks von Microsoft nötig, das der Installer während der Installation herunterlädt und installiert, wenn man es nicht bereits selbst installiert hat.
Nach der Installation präsentiert sich die Evolution GUI:
Die Icons neben der Skala mit dem Schieberegler waren nach der Installation nicht zu sehen, sondern mussten über das Menü View / Toolbars / Customize per Drag and Drop wie bei den Mozilla Programmen manuell hinzugefügt werden und sind teilweise auch noch ohne Funktion.
In den Einstellungen über Tools / Option kann man bis jetzt ein paar kosmetische Änderungen durchführen (Eindeutschen der Menüpunkte), interessant sind noch die System Settings, um dort Privoxy mit Weiterleitung an Tor als Proxy einzutragen, damit die Rechercheanfragen anonymisiert durchgeführt werden:
Was man auch noch machen kann oder sollte, wenn man in sozialen Netzwerken auf Suche gehen will und dort ein Konto besitzt: In die Konfigurationsdatei evolution.conf im \bin Unterverzeichnis des Evolution Programmverzeichnisses den jeweiligen Benutzernamen und das entprechende Passwort eintragen, wobei das Passwort im Klartext eingetragen und wohl auch so übertragen wird:
Sind alle Vorbereitungen durchgeführt, kann es ans Data-Mining gehen. Dazu zieht man eine oder mehrere Kategorien bzw. "Entitäten" aus "Personal" und "Infrastructure" in das "Evolution Graph" Fenster. Als Beispiele mein eigener Netzname für "Person" und das Weblog als "Website":
Über das doppelte Anklicken eines Kategorieicons im linken Fenster öffnet sich eine Eingabezeile, in der man die gewünschten und bekannten Daten einträgt. Wie man sehen kann, habe ich hinter den Namen noch "de" gesetzt, um die Ergebnisse möglichst auf deutschsprachige Quellen und Querverbindungen einzugrenzen. Die erweiterte Suchsyntax kann man in der Evolution Hilfe einsehen.
Eine Korrektur nach einem Hinweis von Roelof: Die Syntax würde richtig lauten "raven,kai,,de". Wenn es die Syntax schon gibt, sollte man sie auch genau beachten
Außerdem wurde der Schieberegler auf 15 Suchergebnisse gesetzt – das Maximum sind 100, was das Graphenfenster "explodieren" lassen dürfte, wenn man nicht über einen großen Screen verfügt.
Über das Kontextmenü zu einer Kategorie bzw. einer Entität kann man die möglichen Suchmuster auswählen bzw. die Entitäten, in die die ausgewählte Entität transformiert werden soll:
Für die Entität "raven,kai,de" habe ich die Transformation "Combo Email,Phone,Site" gewählt und erhalte dann folgenden Graphen:
Das lässt sich auf jedes "Suchergebnis", das eine "Kind"-Entität der "Eltern"-Entität darstellt, bis zum Exzess weiter treiben, d. h. der Graph spaltet sich immer mehr auf und verzweigt sich bis ins Undendliche.
Wählt man eine Entität aus, erhält man im "Detail View" Fenster nähere Information über die Quellen und Fundstellen, in denen die Entität auftauchte. Hier als Beispiel für die oben ausgewählte E-Mail Adresse:
Ist ein "Detail" von näherem Interesse, klickt man das Suchergebnis an und die Inhalte werden im ausgewählten Webbrowser ausgegeben.
Wenn man bedenkt, dass Profi Data-Mining Programme von kommerziellen Data-Minern, Militärs, Polizei- und Geheimdienstbehörden noch ausgefeilter sind, mit zusätzlichen Funktionen zur Bewertung und Gewichtung des Kontexts, in dem eine "Entität" auftaucht oder Schlüsselwörteranalyse aufwarten, nicht nur OSINT ("Open Source Intelligence") Quellen auswerten wie es Evolution macht, sondern auf kommerzielle Datenbankbestände oder Datenbanken anderer Behörden zugreifen und Automatismen zur Sortierung, Verknüpfung und Bewertung der "Suchergebnisse beinhalten, müsste eigentlich jedem, der meint "nichts zu verbergen zu haben", klar werden, wie umfassend und detailiert die Profile über Beziehungsnetze und Kontakte, Interessen, Vorlieben und Neigungen sein können, die Sicherheitsbehörden über die Vorratsdatenspeicherung, Analyse von Weblogs, Webforen und sozialen Netzen oder automatisierte Überwachungsprogramme, die in militärischen und geheimdienstlichen Internet-Überwachungszentren laufen, gewinnen.
Wenn man außerdem ein Werkzeug benötigt, um zu verdeutlichen, was es bedeuten kann, wenn Internetnutzer allzu unbedarft und ohne Nachzudenken in die schöne neue Welt der "Web 2.0" Plattformen und sozialen Netze eintauchen oder um zu zeigen, was es bedeutet, wenn man Internetnutzern jede Möglichkeit nimmt, anonym oder pseudonym im Netz zu agieren, Paterva Evolution ist da.
Ein paar Meldungen und Artikel zum Thema:
Military Information Technology - Web of Tomorrow
Gero von Randow/ Die Zeit - Überwachung tut not
Heise - Haushaltsentwurf 2008: Drei Milliarden Euro für innere Sicherheit
Bisher war es nur möglich, Evolution über ein Webinterface zu bedienen, das aber bereits durch eine geführte Suchanfrage ergänzt wurde, die dem Benutzer die Formulierung von Suchanfragen erleichtert.
In der Zwischenzeit wurden Evolution weitere Quellen hinzugefügt, die man "ausbeuten" kann – darunter einige soziale Netzwerke wie Orkut, Facebook, MySpace, der MIT PGP Keyserver wird abgefragt, die MSN und ICQ Verzeichnisse, GoogleBooks, Wikipedia und vieles mehr.
Zur Zeit sucht Roelof auch nach einem Weg, die Jabber Nutzerverzeichnisse oder Skype abzugrasen und hofft auf Hinweise, welche Webdienste das bereits anbieten oder welche API er dafür nutzen könnte.
Seit gestern kann man sich auch die erste Beta für Windows/*nix herunterladen, mit der man Evolution als eigenständiges Javaprogramm laufen lassen und für Data-Mining Experimente nutzen kann. Unter Windows ist neben Java auch die Installation des .NET 2.0 Frameworks von Microsoft nötig, das der Installer während der Installation herunterlädt und installiert, wenn man es nicht bereits selbst installiert hat.
Nach der Installation präsentiert sich die Evolution GUI:

In den Einstellungen über Tools / Option kann man bis jetzt ein paar kosmetische Änderungen durchführen (Eindeutschen der Menüpunkte), interessant sind noch die System Settings, um dort Privoxy mit Weiterleitung an Tor als Proxy einzutragen, damit die Rechercheanfragen anonymisiert durchgeführt werden:

This file contains the credentials for some of the social networks.
You need to populate these with YOUR credentials.
Please encode special character in hex.
Yes - the passwords are supposed to be in the clear!
facebookusername:paterva.evolution@gmail.com
facebookpassword:%7c%29aterva
Der engagierte Data-Miner wird sich also für seine Zwecke Fake-Accounts in den sozialen Netzwerken zulegen.You need to populate these with YOUR credentials.
Please encode special character in hex.
Yes - the passwords are supposed to be in the clear!
facebookusername:paterva.evolution@gmail.com
facebookpassword:%7c%29aterva
Sind alle Vorbereitungen durchgeführt, kann es ans Data-Mining gehen. Dazu zieht man eine oder mehrere Kategorien bzw. "Entitäten" aus "Personal" und "Infrastructure" in das "Evolution Graph" Fenster. Als Beispiele mein eigener Netzname für "Person" und das Weblog als "Website":

Eine Korrektur nach einem Hinweis von Roelof: Die Syntax würde richtig lauten "raven,kai,,de". Wenn es die Syntax schon gibt, sollte man sie auch genau beachten
Außerdem wurde der Schieberegler auf 15 Suchergebnisse gesetzt – das Maximum sind 100, was das Graphenfenster "explodieren" lassen dürfte, wenn man nicht über einen großen Screen verfügt.
Über das Kontextmenü zu einer Kategorie bzw. einer Entität kann man die möglichen Suchmuster auswählen bzw. die Entitäten, in die die ausgewählte Entität transformiert werden soll:


Wählt man eine Entität aus, erhält man im "Detail View" Fenster nähere Information über die Quellen und Fundstellen, in denen die Entität auftauchte. Hier als Beispiel für die oben ausgewählte E-Mail Adresse:
Wenn man bedenkt, dass Profi Data-Mining Programme von kommerziellen Data-Minern, Militärs, Polizei- und Geheimdienstbehörden noch ausgefeilter sind, mit zusätzlichen Funktionen zur Bewertung und Gewichtung des Kontexts, in dem eine "Entität" auftaucht oder Schlüsselwörteranalyse aufwarten, nicht nur OSINT ("Open Source Intelligence") Quellen auswerten wie es Evolution macht, sondern auf kommerzielle Datenbankbestände oder Datenbanken anderer Behörden zugreifen und Automatismen zur Sortierung, Verknüpfung und Bewertung der "Suchergebnisse beinhalten, müsste eigentlich jedem, der meint "nichts zu verbergen zu haben", klar werden, wie umfassend und detailiert die Profile über Beziehungsnetze und Kontakte, Interessen, Vorlieben und Neigungen sein können, die Sicherheitsbehörden über die Vorratsdatenspeicherung, Analyse von Weblogs, Webforen und sozialen Netzen oder automatisierte Überwachungsprogramme, die in militärischen und geheimdienstlichen Internet-Überwachungszentren laufen, gewinnen.
Wenn man außerdem ein Werkzeug benötigt, um zu verdeutlichen, was es bedeuten kann, wenn Internetnutzer allzu unbedarft und ohne Nachzudenken in die schöne neue Welt der "Web 2.0" Plattformen und sozialen Netze eintauchen oder um zu zeigen, was es bedeutet, wenn man Internetnutzern jede Möglichkeit nimmt, anonym oder pseudonym im Netz zu agieren, Paterva Evolution ist da.
Ein paar Meldungen und Artikel zum Thema:
Military Information Technology - Web of Tomorrow
Gero von Randow/ Die Zeit - Überwachung tut not
Heise - Haushaltsentwurf 2008: Drei Milliarden Euro für innere Sicherheit
von rabenhorst - Owl,
gepostet am Donnerstag, 5. Juli 2007 um 19:33

