Von der Herzoperation Silvester 2005 zum Marathon Oktober 2007

Mittwoch, 9. Mai 2012

Datenpanne bei Twitter? Eine Hypothese



Heute gab es auf meiner Timeline einigen Wirbel um eine angebliche Datenpanne bei Twitter. Einige Nachrichtenportale berichteten darüber.

Hier eine kleine Analyse des veröffentlichten Datenbestands.

Aus der Summe aller 5 Dateien mit über 55.000 Datensätzen verbleiben nach Löschung der Doubletten 34061 Datensätze (hier habe ich in Gross- und Kleinschreibung unterschiedliche, ansonsten aber gleiche Datensätze als gleich betrachtet, zumal sie in den meisten Fällen das gleiche Passwort hatten.)

Darin enthalten sind 5 Sätze, die formal fehlerhaft waren, d.h. ohne das Trennzeichen ":". Ich habe sie hier herausgenommen, obwohl erkennbar war, wie sie hätten lauten sollen.

Zusätzlich gibt es 28 Datensätze miz zu kurzem Benutzernamen (<= 4 Buchstaben) wie "wwww" mit Passwort "wwww"oder "kaio" mit Passwort "kaio", einige von ihnen ohne oder mit ebenfalls kurzem Paswort. Diese lasse ich aus der Betrachtung raus.

Ab 5 Buchstaben kann ich nicht eindeutig erkennen, ob diese "ungültig" sind, also zähle ich sie bei den nachfolgenden Betrachtungen mit.

Zusätzlich finden sich 66 Sätze ohne Passwort.

Dazu 4 Datensätze mit Passwort bestehend aus einem Buchstaben, 15 mit 2-, 113 mit 3- (häufig "123" oder "ABC"), 595 mit 4stelligem, 358 mit 5stelligen Passwort.
Ich bin nicht sicher, ob ich diese herausnehmen soll. Die meisten von ihnen haben Mailadressen als Benutzernamen, die zumindest formal korrekt sind. Viele dieser Passwörter haben (homo-)sexuellen Kontext und, in Zusammenhang mit den Mailadressen und/oder deren Pseudonymen, lassen auf ein brasilianisches Umfeld schliessen:

sex, sexo, gay, pau, porro, imgay, amigo...

24992 Benutzernamen entsprechen formal einer Mailadresse in der Form benutzer@domain.tld.

Von den Benutzernamen mit Passwörtern mit 4 oder mehr Buchstaben haben 5775 Adressen aus *.br (5717 aus *.com.br). Die restlichen teilen sich auf hotmail.com (15639), gmail.com (2157), Yahoo.com (306), (windows)live.com (136), msn.com (106). Auch hier kann man eine Tendenz zu sexuellem Bezug in den Mailkonten erkennen.

776 weitere verteilen sich auf globo.com, globomail.com, telefonica.com.br und andere. Die allermeisten sind aus Brasilien oder international (wie hotmail.com, gmail.com, usw.), sehr wenige aus Portugal, Argentinien, Spanien oder Rest-Lateinamerika.

Domain         Anzahl
hotmail.com    15601
yahoo.com.br    2375
gmail.com       2151
bol.com.br      1030
uol.com.br       695
IG.COM.BR        454
yahoo.com        284
terra.com.br     272
oi.com.br        204
live.com         131
hotmail.com.br   130
msn.com          106
globo.com         99
ibest.com.br      73
ymail.com         49
pop.com.br        49
gmail.com.br      38

Es fällt auf, dass es auch einige Vertipper gibt wie hotmial, gmial, gmeil, yahooo.com.br, usw.

9036 Benutzer haben kein Mailadressenformat. Hier fällt auf, dass viele von ihnen "konstruiert" wirken. Dazu gibt es 580 Accounts mit dem gleichen Passwort (315475), was auf eine Scriptattacke hinweist.
Andere könnten so tatsächlich existieren.

Interessant sind die restlichen 1408 Accounts, die eine Passwortlänge von 8 haben. Diese haben eine Reihe von Merkmalen, die sie von den anderen unterscheiden:

- Sichere Passwörter aus Gross- und Kleinbuchstaben mit Zahlen kombiniert, die nicht in einem Wörterbuch erscheinen
- "konstruiert" wirkende Benutzernamen, z.B.

Passwort     Benutzer
386cSthn     Alene_Figgins
387vZVqy     Temeka_Wheelis

Die verwendeten Namen sind hier nicht portugiesisch, sondern eher US-amerikanisch einzuordnen.
Ich würde darauf tippen, dass hier ein Spambot aus den USA gewütet hat.

Was können wir aus diesen Daten schliessen?

1. Vermutlich haben wir es hier nicht mit einem Twitter-Datenbestand zu tun.
Die vielen fehlerhaften Benutzerdaten können nicht aus einer gültigen Twitter-Datenbank stammen, denn sie wären bei der Anmeldung abgewiesen worden. Ebensowenig möglich wäre es, einen Benutzer ohne oder mit zu kurzem Passwort zu erstellen.

2. Es wurde die Vermutung geäussert, dass es möglicherweise ein authorisierter Service gewesen sei. Ich meine nein.
Aus den gleichen Gründen wie 1. kann es sich um keine gültigen Twitter-Benutzerdaten handeln. Die Vermutung, die Passwörter könnten aus der Zeit vor der OAuth-Einführung stammen, halte ich für nicht stichhaltig: auch solche Daten müssten ein gültiges Benutzername/Passwort-Paar ergeben.

3. Vermutlich wurde eine andere Website gehackt, und das sind deren Nutzerdaten.

4. Die Website dürfte in Brasilien heimisch sein und entwas mit Sex, Porno und/oder Gay zu tun haben.

5. Die Website selbst dürfte (mehrfach?) Opfer von Spambot-Attacken geworden sein, die massenweise Fake-Accounts anlegten.

6. Die vorliegende Tabelle könnte eine Art Vorfilter darstellen, vielleicht als Teil eines zweistufigen verteilten Systems: wenn der Webserver keinen Kontakt zur Datenbank hat, speichert er die Daten ohne Prüfung, um sie später mit dem DB-Server abzugleichen. Somit hätten wir hier nicht-verifizierte Konten vorliegen.

7. Das Szenario aus 6. würde auch erklären, wie sie in die Hände der Hacker gelangt sind, nämlich bei der Übertragung auf den Backend-Server.

8. Der Punkt 7. ist natürlich nicht zwingend - aufgrund der schlampigen Datenerfassung kann man auf mangelndes technisches Know-how der Seitenbetreibers schliessen, ein Leck könnte also überall aufgetreten sein.

9. Möglicherweise sind Twitter-Konten dennoch betroffen, und zwar in den Fällen, in denen echte Benutzer aus dieser Datenbank die gleichen Nutzerdaten für ihre Twitteranmeldung verwenden.

Keine Kommentare: