Wednesday, February 13, 2008

Thema der Masterarbeit

Nachdem am Donnerstag meine letzte Vorlesung gewesen ist (wahrscheinlich!), steht auch das Thema der Masterarbeit fest.

Ich werde, betreut von Andre Brinkmann, über die "Skalierung von Data-Deduplication in Storage Clustern" schreiben. Die Formulierung steht allerdings nicht fest.

Data-Deduplication beschreibt in diesem Feld (im Data-Mining wird der Begriff anders verwendet) Methoden um redundant gespeicherten Dateien* in Speichersystemen zu vermeiden. Zum Beispiel werden in Firmen oft die gleichen Daten (von mehreren Mitarbeitern) mehrmals gespeichert: Die gleichen E-Mails, die gleichen Präsentationen, (im Zweifel) die gleichen mp3-Dateien. Dabei ist es ausreichend, wenn jede Datei nur einmal gespeichert ist. Alle weitere Kopien könnten dann auf die erste Kopie verweisen. Die Problematik in dem Bereich liegt im Erkennen, wann eine Datei redundant ist, dem Datendurchsatz und in der Skalierbarkeit der Ansätze.

Ich finde das Thema spannend für eine Masterarbeit, weil es die Möglichkeit bietet neue Ansätze zu entwickeln, auszuprobieren und zu verwerfen. Es verbindet nicht-triviale Implementierungsaufgaben (das Ergebnis soll per iSCSI in Linux eingebettet werden) mit einem schönen Hauch Theorie (Hashing, Kollisionen, Bloom-Filter, etc). So wie ich es mag.

Außerdem scheint das Thema akademisch bisher kaum behandelt worden zu sein. Wie sagt man so schön: Da könnte Luft für neue Ideen sein.

Die dazu passende Vorlesung "Speichersysteme" (Brinkmann) war meine Lieblingsveranstaltung im Master. Auch "Datenverwaltung in Rechnernetzen" (MadH) fand ich interessant. Aber Herum-Beweisen mit Hashfunktionen, Expandergraphen usw. ist nicht unbedingt meine Vorstellung einer schönen Zeit. Auf keinen Fall für eine Masterarbeit. So scheint das Thema eine gute Wahl zu sein.

Alternativ hätte ich mir z.B. auch eine Arbeit im PC^2 vorstellen können. Aber in der Zeit als ich ein Thema gesucht habe, ist es mir nicht gelungen den einzigen Lehrberechtigten dort (Jens Simon) im Büro zu erwischen und zum anderen klingen mir die meisten Themen-Vorschläe dort zu sehr nach reinem Doing und zu wenig Forschung zum Beispiel die Erweiterung des hauseigenen Resource-Management-Systems zum Feature xy.

Wenn alles gut geht, dann werde ich mit der Masterarbeit nach den letzten Prüfungen und der Vertiefungsprüfung im April beginnen.

* Es wird eher auf "Blockgeräte"-Ebene anstatt auf Dateisystem-Ebene gearbeitet, aber mit "Dateien" lässt sich das Thema wohl besser vermitteln. Das ist zumindest meine Erfahrung.

1 comment:

  1. Automatically imported comment
    Author: dirkmeister.de » Blog Archive » IBM kauft Daten-Deduplication-Firma
    Date: Saturday 19. April 2008


    [...] Thema meiner Masterarbeit ist tatsächlich sehr heiß. Auch wenn ich die damalige Bemerkung “akademisch bisher kaum [...]

    ReplyDelete