Sunday, March 29, 2009

Twitter Updates 2009-03-29

  • What is the best plotting tool available? R, gnuplot, Excel? Matlab?, matplotlib? I am currently trying R and I am not really happy with it. #
  • Very nice "timeout" shell script: http://tinyurl.com/3m8ul5 #
  • I find statements from PhDs like "such languages only used for learning purposes like Pascal and today Java" really strange. #
  • Note: You have written to much LaTex text if you use \% in chats. #

Saturday, March 28, 2009

Video about IBM ProtecTIER data deduplication

IBM has published a marketing video about their ProtecTIER data deduplication system recorded at the Pulse09 conference in February:

Key message: It is scalable. But the video contains 3 minutes of marketing stuff without much real information.

What I really find more interessing: At the SYSTOR'09 conference (one of the interessing talks I mentioned here) will be a research talk about the technology and concepts behind the ProtecTIER system, which is based on the product from the company Diligent that IBM bought April 2008. Abstract:

We describe some of the design choices that were made during the development of the IBM TS7650G ProtecTier, a fast, scalable, inline, deduplication device. The system's design goals and how they were achieved are presented. This is the first and only deduplication device that uses similarity matching. The paper provides the following original research contributions: we show how similarity signatures can serve in a deduplication scheme; a novel type of similarity signatures is presented and its advantages in the context of deduplication requirements are explained.
It is also shown how to combine similarity matching schemes with hash based identity schemes.
I really look forward to this talk. Especially how the delimit their approach in comparision to approaches like DERD, DeepStore and other.

First paper accepted

My first paper has been accepted for publication at the SYSTOR'09 conference that takes place in Haifa at May 4-6.

It is based on the first part of my master thesis, but the contents has been extended and revised afterwards:

Data deduplication systems detect redundancies between data blocks to either reduce storage needs or to reduce network traffic. A class of deduplication systems splits the data stream into data blocks (chunks) and then finds exact duplicates of these blocks.

This paper compares the influence of different chunking approaches on multiple levels. On a macroscopic level, we compare the chunking approaches based on real-live user data in a weekly full backup scenario, both at a single point in time as well as over several weeks.

In addition, we analyze how small changes affect the deduplication ratio for different file types on a microscopic level for chunking approaches and delta encoding. An intuitive assumption is that small semantic changes on documents cause only small modifications in the binary representation of files, which would imply a high ratio of deduplication. We will show that this assumption is not valid for many important file types and that application specific chunking can help to further decrease storage capacity demands.

I really look forward to that conference because surprisingly many talks in the program look really interesting and it is my first chance to meet storage researchers outside the Fürstenallee.

Sunday, March 22, 2009

Twitter Updates 2009-03-22

  • Wow. Barbara Liskov had won the ACM Turing Award. I have read ots of papers she co-authored. Especially here work with Gupta udn Rodigues. #
  • Has anyone evaluated OCZ Vertex SSDs? I dont't trust my benchmarks. They are simply too good. #
  • Is there an aquivalent for LinkedHashMap in or for python? #
  • My paper is accepted for SYSTOR 2009 conference in Haifa. :-) #
  • Watching iPhone 3.0 Sneak Peak #
  • A reviewer has critized the use of color in my graphs. I haven't colored graphs! Strange. #
  • FDP für Internetsperren? Wird langsam Zeit, dass ich austrete #
  • Meine Nackenhaare sträuben sich. Hat der Autor dieses SPIEGEL-Artikels (http://tinyurl.com/d34edn) den Hauch einer Ahnung wovon er schreibt. #

Saturday, March 07, 2009

Matlab für Mitarbeiter der Universität Paderborn auf Mac OS X

Für Mitarbeiter und Laborrechner der Universität Paderborn sind MATLAB Lizenzen verfügbar. Theoretisch zumindest, weil oft genug hat der zentrale Lizenzserver keine frei, aber das ist ein anderes Thema.

Auf der Webseite des IMT gibt es zwar Anleitungen für Windows und Unix, aber keine für Mac OS. Deshalb soviel vorweg: Die Installation ähnlich wie bei Windows, obwohl Mac OS ein Unix-Betriebssystem ist mehr Windows als Unix. Vorgehen ist:

  1. Zuerst fragt man beim IMT nach der Lizenzdatei und dem File Installation Key.
  2. Danach führt man das Installationsprogramm "InstallForMacOSX" aus, dass im AFS unter /afs/uni-paderborn.de/public/imt-download/matlab/R20/macos_x_intel abgelegt ist. Der HTTP-Downloadlink der auf der Homepage kann dazu nicht verwendet werden. Wie man AFS auf Mac OS X einrichtet, steht auf dieser Seite, aber auch die Anleitung funktioniert so unter 10.5 nicht. Aber gehen wir mal davon aus, dass AFS schon eingerichtet ist.
  3. Nun muss man wie bei Windows die Datei network.lic (Download;) im Verzeichnis licenses von Matlab anlegen. Dazu muss man den Paketinhalt der Anwendung MATLAB_R2008b anzeigen lassen (Rechte Maustaste auf die Anwendung und "Paketinhalt anzeigen" auswählen) und die Datei in das entsprechende Verzeichnis kopieren. Unter Mac OS sind Anwendungen "in Wirklichkeit" Verzeichnisse, die durch "Paketinhalt anzeigen" geöffnet werden können.
Danach kann Matlab normal gestartet werden (unter der Voraussetzung, dass gerade Lizenzen "frei" sind).

Subversion auf Suse Linux Enterprise (SLE) 10

Es ist unheimlich frustrierend, dass Novell Suse Linux Enterprise 10 (SLE 10) von Haus aus kein Subversion anbietet. Begründung: nur geprüfte "Enterprise-Ready" Software, bla bla. Subversion ist so etwas von Enterprise-Ready und war es auch schon als SLE 10 herauskam.

Naja, hilft ja nicht. Was hilft ist build.opensuse.org. Dort gibt es auch RPM-Pakete für SLE 10. Einfach nach subversion und dessen Abhängigkeiten (apr, apr-utitl und neon) suchen, die RPMs herunterladen und installieren. Beispiel mit den aktuellen Links:

wget http://download.opensuse.org/repositories/Subversion/SLE_10/i586/subversion-1.5.5-24.1.i586.rpm
wget http://download.opensuse.org/repositories/Apache/SLE_10_server_database_postgresql/i586/libapr1-1.3.3-6.1.i586.rpm
wget http://download.opensuse.org/repositories/KDE:/Backports/SLE_10/i586/libapr-util1-1.3.4-6.1.i586.rpm
wget http://download.opensuse.org/repositories/Subversion/SLE_10/i586/neon-0.26.1-10.1.i586.rpm

rpm -ivh libapr1-1.3.3-6.1.i586.rpm rpm -ivh libapr-util1-1.3.4-6.1.i586.rpm rpm -ivh neon-0.26.1-10.1.i586.rpm rpm -ivh subversion-1.5.5-24.1.i586.rpm

Und schon ist subversion installiert!