Computer

Quick-Index

Einleitung - Formate - Quellen und Literatur

Office

Einleitung

Sie haben schon öfters nach einem Dokument gefragt und erhalten per Mail ein Word-Dokument als Attachment? Und Sie haben sich dabei nicht geärgert? Gut, dann arbeiten Sie mit Windows und haben auch ein - selbstverständlicherweise - lizensiertes Office-Produkt der Firma Microsoft. Aber längst nicht alle PC-User haben dieses Programm zur Verfügung. Und genau darum gilt es sich zu überlegen, was man dagegen machen.

Dabei muss vor allem unterschieden werden, für welches Medium der Text konzipiert wurde. Wenn man fürs Web Dateien erstellen will (digitales Publizieren), unterscheiden sich das Design, die Präsentation, die Portabilität und viele weitere Faktoren komplett von einer Datei, die für eine Zeitschrift erstellt wurde.

MS-Office möchte an dieser Stelle das universale Tool für Text werden, unabhängig von dem gewünschten Einsatzzweck. Eine Freeware-Alternative ist das Office-Produkt OpenOffice der Firma Sun. Es ist für mehrere Plattformen kostenlos verfügbar. Zumindest den Vergleich mit Office-Podukten der Firma Microsoft braucht es nicht zu scheuen. Sogar In- und Export von Microsoft-Dateien beherrscht es. Allerdings versucht OpenOffice nur eine Alternative zu MS-Office zu sein. Es soll dann auch noch die Menschen geben, die OpenOffice verwenden, weil Sie Microsoft-Produkte vermeiden und universal sein möchten, dann aber erst die Mail mit einem Attachment in Form von einer .doc-Datei senden.

Und genau an dieser Stelle möchte ich jetzt Einhacken, es geht an dieser Stelle nicht um solche Office-Riesenpakete, sondern um wirkliche Alternativ-Dokumente. Den Bereich Dokumentformate will ich jetzt ein wenig genauer beleuchten.

Formate

Grafik

Den meisten Internet-Usern sollten die Begriffe JPEG, GIF und PNG ein Begriff sein. Office-User sollten zumindest die Grafikformate BMP und TIFF kennen. Deswegen an dieser Stelle nur ein kurzer Exkurs in die Welt der Grafiken.

Ein Bitmap ("Bilder") speichert Bildpunkte (Pixel). Die Bildfläche wird dabei in Punkte aufgeteilt. Pro Bildpunkt können unterschiedliche Informationen abgelegt werden. Bitmap-Formate sind z.B. TIF (auch TIFF), TGA (Targa-Format für Dia-Belichter), BMP (Windows-Bitmap), DIB (Device Independant Bitmap, verbessertes BMP für Multimedia-Anwendungen) und PCX (PC Paintbrush, DOS-Bitmap).
Mit Bitmaps arbeiten ist sehr speicherintensiv und ein großer Nachteil ist, dass sie zum Skalieren nicht sehr gut geeignet sind. Bitmaps werden nicht komprimiert und eignen sich daher für die Webpublizierung kaum bis gar nicht. BMP ist dabei das bekannteste und vor allem in der Windows-Welt sehr verbreitete Bitmap. Durch die fehlende Komprimierung ist es allerdings nicht sehr einsatzfreudig.

Das Vektor-Format ("Zeichnungen") speichert mathematische Vorschriften, nach denen die Grafikelemente erzeugt werden, dadurch sind die Bilddaten auflösungsunabhängig. Vektor-Formate sind z.B. CDR (Corel Draw), AI (Adobe Illustrator), DWF/DXF (Drawing Exchange Format, Auto CAD), PostScript und EPS (Encapsulated PostScript). Vektor-Grafiken sind im Vergleich zu Bitmap-Grafiken nicht sehr speicherintensiv und eignen sich sehr gut zum Skalieren von Bildern, da die Pixel nicht einzeln sondern im Verhältnis zu anderen Daten gespeichert werden.

Sogenannte Metafiles können Bitmap- und Vektor-Grafiken enthalten. Metafile-Formate sind z.B. Macintosh PICT, EPS, CGM (Computer Graphics Metafile) und WMF (Windows Metafile).

Für das Web gibt es eigene "Web-Formate". Um die Übertragungszeiten von Websites möglichst gering zu halten, sollten Bilder im Web wenig speicherintensiv sein. Spezielle Dateiformate, die das Komprimieren von Bildern unterstützen, sind GIF, JPG und PNG (alle Bitmaps).

Beim Austausch von Bildern soll daher an den Verwendungszweck gedacht werden, um unnötiges Verbrauchen von Ressourcen zu vermeiden.

Text

Microsoft Word

Dieses Format entwickelt sich leider immer mehr zum Standard unter nicht-professionellen Computer-Usern. Dadurch werden teilweise auch professionelle User gezwungen, auf dieses Format kompatibel zu reagieren ;-(. Da Microsoft Word nur für Windows und MAC-PCs verfügbar ist und selbst zwischen diesen beiden Versionen (und auch versch. Versionsnummern auf der gleichen(!) Plattform) Kompatibilitäsprobleme vorherrschen, ist die Verfügbarkeit sowie die Austauschbarkeit nicht 100% gegeben. Wenn man sich sicher ist, dass die Gegenseite dieses Format problemlos öffnen sowie bearbeiten kann, sowie dass die Dokumente keine unsicheren Makros enthalten, spricht nichts gegen die Verwendung diese Formates.
Anmerkend sei noch auf die Links zum Thema "Word als Austauschformat" am Ende dieser Webpage hingewiesen.

ASCII-Text

Alle Systeme bzw. deren Editoren beherrschen ASCII, dadurch ist 100% Verfügbarkeit gegeben. Ein ASCII-Text ist bis auf Zeilenumbrüche und einige wenige, verbreitete Markierungen wie *fett*, _unterstrichen_ und /kursiv/ nicht strukturierbar. Somit können einzelne Textbestandteile nicht besonders gekennzeichnet werden, weder als logisches Element noch mit Hilfe einer Layoutauszeichnung. Dies ist wohl als der größte Nachteil dieses Format zu betrachten.

Postscript

1985 stellte die Firma Adobe Systems das Format Postscript vor, das sich aufgrund seiner herausragenden Eigenschaften in kurzer Zeit zu einem Industriestandard entwickelte. In Postscript können textuelle und graphische Elemente geräte- und auflösungsunabhängig definiert werden, d.h. die Ausgabe eines Dokuments auf dem Bildschirm und auf dem Drucker ist identisch. Postscript ist eine Seitenbeschreibungssprache und somit stark layoutfixiert, d.h. von einer eventuell früher vorhandenen logischen Struktur eines Dokuments ist nach einer Konvertierung in Postscript nichts mehr zu entdecken. Ein Postscript-Dokument wird meist durch eine Konvertierung erzeugt, d.h. ein direktes Erstellen von Dateien ist aufgrund der Komplexität und der Layoutorientierung in der Regel nicht möglich. Meist werden Datei- oder Druckerfilter genutzt, die Postscript erzeugen. Viele Drucker besitzen die Fähigkeit, Postscriptdateien direkt zu drucken. Für alle gängigen Plattformen und Betriebssysteme sind gute Werkzeuge zur Erstellung und Konvertierung von Dokumenten frei verfügbar (z.B. Ghostscript). Postscript-Dokumente lassen sich im allgemeinen nicht bearbeiten (eingeschränkte Editierbarkeit ist mit Spezialsoftware möglich).
Durch den erworbenen Status als Industriestandard ist Postscript auf allen Plattformen verfügbar. Es gibt sowohl frei verfügbare als auch kommerzielle Software zur Erzeugung und Darstellung von Postscript-Dokumenten. Auch von Postscript existieren mehrere Versionen, die aber jeweils klar definiert sind.

Portable Document Format - PDF

Dieses Format, das ebenfalls von Adobe entworfen wurde, ist als Weiterentwicklung von Postscript anzusehen. Gerade unter dem Einfluß des World Wide Web war es sinnvoll, ein Format zu entwickeln, das ebenso wie Postscript geräte- und auflösungsunabhängig Dokumente darstellt, andererseits aber auf neue Entwicklungen wie Hyperlinks usw. Rücksicht nimmt. So ist PDF weiterhin eine seitenorientierte Sprache, implementiert aber Features wie Links, Anmerkungen, Bookmarks, interaktive Elemente, sprachspezifische Zeichen, Kopierschutzfunktionen und zahlreiche Präsentationsoptionen. Es basiert auf dem sogenannten Hypertextkonzept.
Weiterhin wurde das Fonthandling wesentlich verbessert, so dass auch Nutzer, die den einen oder anderen Font nicht zur Verfügung haben, das Dokument ohne Layouteinbußen ansehen können. Durch eine interne Komprimierung konnte die Dateigröße reduziert werden. PDF erfreut sich inzwischen wachsender Beliebtheit bei der elektronischen Publikation von Dokumenten, nichtzuletzt durch die Verfügbarkeit von Plugins für WWW-Browser, die damit PDF direkt im Fenster darstellen können. Trotzdem wird auch bei diesem Format die eventuell vorhandene Struktur des Ausgangstextes weitgehend vernichtet. Eine interessante Weiterentwicklung, Encapsulated PDF, das Strukturinformationen in für PDF-Dateien wieder verfügbar machen sollte, ist nicht über einen technical report im Jahre 1995 hinausgekommen, obwohl die Ziele des Projekts recht vielversprechend klangen.
Die Verfügbarkeit von PDF ist dank dem kostenlosem Programm Acrobat Reader von Adobe auf fast allen Plattformen gewährt. Der Reader integriert dabei Funktionen wie Suche im Dokument, Seitennavigation und Druck. Auch die GNU-Software Ghostscript ist inzwischen in der Lage, PDF-Dateien zu verarbeiten, allerdings mit eingeschränktem Funktionsumfang. PDF-Dokumente werden durch Konvertierung aus einem Quellformat, wie z.B. MS-Word erzeugt. Dazu muss allerdings auf die nur kommerziell verfügbaren Produkte der Acrobat-Reihe, wie Distiller oder Exchange zurückgegriffen werden. Diese erlauben die Erstellung von PDF-Dokumenten direkt aus der eigenen Textverarbeitung heraus und das Einfügen von Bookmarks oder Hyperlinks.

Rich Text Format - RTF

Das RTF-Format wurde von Microsoft entwickelt, um den Dokumentenaustausch zwischen verschiedenen Rechnersystemen zu ermöglichen. Primär war hier der Austausch zwischen MS-Word-Versionen auf PC und Macintosh gemeint, jedoch wurde das Format nach und nach in fast alle gängigen Textverarbeitungen integriert, so dass das Speichern und Lesen von RTF-Dokumenten relativ unproblematisch ist. Doch obwohl eine detaillierte Spezifikation des Formats von Microsoft verfügbar ist, existiert doch eine Reihe von Dokumenten, die von diesem oder jenem Textverarbeitungsprogramm nicht gelesen werden kann. Von einer 100%-igen Austauschbarkeit kann deshalb nicht gesprochen werden.

TeX, LaTeX

Wer mit mathematischen Formeln gespickte Arbeiten zu schreiben hat, die auch noch eine hohe Layoutqualität besitzen sollen, der ist mit einiger Sicherheit nicht an TeX (sprich "tech") vorbeigekommen. TeX ist keine Textverarbeitung, sondern ein Satzsystem, das sich besonders in naturwissenschaftlichen Kreisen durchgesetzt hat. Es ist also eine Seitenbeschreibungs- und Programmiersprache. TeX wurde 1982 von Donald E. Knuth geschrieben, mit dem Zweck, seine Buchserie "The Art of Computer Programming" professionell layouten bzw. setzen zu können.
Die Ausgabe eines TeX-Systems braucht sich im Allgemeinen nicht hinter einer professionell gelayouteten zu verstecken. LaTeX ist ein weitverbreitetes Makropaket, das die Arbeit wesentlich vereinfacht und die logische Auszeichnung von Textbestandteilen ermöglicht. Nur wenige Anwender benutzen noch das reine TeX-System, da es für die tägliche Benutzung bei weitem zu kompliziert ist. TeX ist an und für sich nur ein Makro-Compile mit wenigen eingebauten Anweisungen.
Das TeX-System ist auf allen Rechnerplattformen frei verfügbar. Eine komplette Installation beinhaltet nicht nur das Grundsystem, sondern z.B. auch eine Reihe von Makropaketen für unterschiedlichste Anwendungszwecke und Fontgeneratoren. TeX-Source-Files werden in das DVI-Format übersetzt und danach meist nach Postscript konvertiert. TeX ist ein äußerst leistungsfähiges System, in dem sich komplexe Dokumente in Layoutqualität erstellen lassen.
Die Benutzung ist deshalb für Laien speziell am Anfang schwieriger zu erlernen als z.B. MS-Word. Die Verbreitung ist aus diesem Grunde leider teilweise noch gering. Wobei die Dokumente nicht wie bei MS-Word nicht unter Kontrolle zu bringen sind und dadurch vor allem bei Beherrschung des LaTeX-Systems ein weit effizienteres arbeiten möglich ist. Zumindest nach einer kurzen Einarbeitungsphase in das LaTeX-System sollten Standard-Dokumente die man im Alltag braucht sehr gut machbar sein.

Standard Generalized Markup Language - SGML

Die Standard Generalized Markup Language wurde im Jahre 1986 als ISO-Standard verabschiedet (ISO 8879). Die eigentliche Entwicklung begann wesentlich früher, und zwar 1969 durch Charles Goldfarb, der die GML entwickelte. Ziel war es, ein Format für den Austausch von Informationen und Dokumenten zu entwerfen, das im Gegensatz zu allen anderen bisher besprochenen Formaten die Struktur eines Dokuments in den Vordergrund stellt und nicht die konkrete Erscheinungsform auf einem bestimmten Medium. Während die meisten Dateiformate mehr oder weniger die Formatierungsanweisungen integrieren, sind solche Informationen in einer SGML-Datei nicht vorhanden. Diese müssen vielmehr in einer separaten Styledefinition festgelegt werden. Die Vorteile liegen klar auf der Hand: Ein und dasselbe SGML-Dokument lässt sich durch die Angabe verschiedener Styles auf unterschiedlichen Medien ausgeben. Streng genommen ist SGML aber kein Dateiformat wie TeX oder auch HTML, vielmehr eine Metasprache, in der sogenannte Document Type Definitions (DTD) beschrieben werden können. Eine DTD wird für eine Klasse gleichartiger Dokumente (z.B. Geschäftsbriefe) definiert. Wenn also von einem SGML-Dokument gesprochen wird, ist meist ein Dokument gemeint, das mit einer durch die SGML-Metasprache definierten DTD strukturiert wurde. Eine DTD besteht aus der Aufzählung und Verkettung logischer Elemente, z.B. Überschriften, Absätze, Fußnoten usw. Dabei wird genau festgelegt, in welchem Kontext, in welcher Reihenfolge und wie oft diese Elemente im Dokument vorkommen können oder müssen. Diese Elemente werden als Tags bezeichnet und werden üblicherweise durch spitze Klammern begrenzt, z.B. <Heading1>. Ein SGML-Dokument wird dann entsprechend einer anzugebenden DTD erstellt. Das Erscheinungsbild wird wie erwähnt dabei nicht festgelegt - das ist Sache eines SGML-Browsers oder eines anderen Konverters, der unter Zuhilfenahme eines Stylefiles Überschriften der Größe 1 z.B. auf Arial 14 pt festlegt.
Die Erstellung von SGML-Dokumenten kann mit einem normalen Editor erfolgen, was aber kompliziert ist, da ja die durch die DTD festgelegten und z.T. komplizierten Regeln beachtet werden müssen. Echte SGML-Editoren (z.B. Author/Editor oder Framemaker+SGML) sind da wesentlich komfortabler. Diese sind jedoch in der Regel nur kommerziell und auch nur für bestimmte Plattformen verfügbar. Die Preise für diese Systeme sind im allgemeinen sehr hoch und für einen Privatanwender derzeit nicht erschwinglich. Auch die Bedienung dieser Systeme erfordert weit mehr Erfahrung und Übung als beispielsweise das Schreiben eines Textes mit Word für Windows. Der Markt an public-domain-Editoren beschränkt sich auf einen SGML-Modus von Emacs. Zum Parsen und Konvertieren von Dokumenten stehen weit mehr Tools für unterschiedlichste Plattformen zur Verfügung.

Hypertext Markup Language - HTML

Mit der Entwicklung des WWW als völlig neuartigem Medium für den Informationsaustausch im Internet wurde die Sprache bzw. das Dateiformat HTML kreiert, wobei nicht nur Texte, sondern auch Graphiken integriert werden sollten und vor allen Dingen auch Hyperlinks auf andere Dokumente gesetzt werden können. Mit der rasanten Verbreitung des WWW wurde eine Standardisierung notwendig, die durch das W3-Konsortium vorangetrieben wurde. Man orientierte sich dabei an SGML und beschrieb HTML als eine Dokumenttypdefinition (DTD), so dass beliebige Dokumente damit im Internet bzw. WWW publiziert werden konnten. Obwohl SGML die Trennung von Struktur und Layout vorsieht, konnte das bei HTML nicht durchgehalten werden, so dass viele Tags nicht nur eine logische, sondern auch physische Layoutdefinition vornehmen. Um dieses Problem zu beheben, wurden und werden Style-Standards, wie z.B. CSS - Cascading Style Sheets, entwickelt, die Großteils schon in aktuellen WWW-Browsern implementiert sind. Je nach Unterstützung durch die Softwarehersteller ist eine Migration nach XML abzusehen, die eine strenge Festlegung auf ein wohldefiniertes Set von HTML-Tags überflüssig macht. XML besitzt einen eingeschränkten Funktionsumfang gegenüber SGML, jedoch lassen sich wie dort DTDs für beliebige Dokumentklassen entwickeln, so dass man nicht wie bei HTML auf ein abgegrenztes Set von Tags angewiesen ist. Der große Vorteil wird darin bestehen, dass die Browser-Hersteller schon jetzt dabei sind, ihre Programme XML-fähig zu machen. Dazu muss für jedes Dokument ein entsprechender Style verfügbar sein, da die Browser dann nicht mehr eine eigenmächtige Formatierung durchführen.
Für HTML wurden in vielen Browsern schon Implementationen der "Cascading Style Sheets"(CSS) vorgenommen, die jedoch vor allem noch mangelnde Unterstützung von CSS in Version 2 (momentan aktuell) bieten. Für XML scheint sich die "eXtended Style Language" (XSL), eine Untermenge von DSSSL, durchzusetzen.
HTML-Dokumente lassen sich sowohl mit Editoren als auch Webdesign-Studios erstellen. Viele von diesen Editoren sind frei erhältlich bzw. schon im Betriebssystem verankert. Zur Darstellung der HTML-Dokumente werden Browser verwendet, die Großteils frei erhältlich sind. HTML ist somit beinahe 100% verfügbar, allerdings ist es nicht das optimale Austauschformat, da eine komplizierte Handhabung im Vergleich zu reinen Textdateien durch die Implementierung von Tags vorhanden ist.

Quellen und Literatur

Austauschen und Konvertieren von Grafik-Dateien - Klaus Tormählen

Daniel Johst: "Dateiformate für das elektronische Publizieren"

Multimedia Taschenbuch - Bild
  • Taschenbuch Multimedia
  • Autor: Peter A. Henning
  • Preis: 20,35 Euro
  • Gebundene Ausgabe - 600 Seiten - Fachbuchverlag Leipzig, Auflage: 2., aktualis. Aufl.
  • ISBN: 3446217517
Ein als Nachschlagewerk konzipiertes Buch, das sehr hilfreich und umfangreich ist. Auch aktuell, da gerade erst neu überarbeitet. Enthält auch ein XML-Kapitel. Absolut empfehlenswert für jeden Multimedia-, Dateiformate-Interessierten!

Ich habe zum Thema "Word als Austauschformat" eine gute Webpage von Subotnik gefunden.

 

* Nach oben