|
|
![]() |
||||
| Info Person Gallery Computer Internet Fun Sonstiges Sitemap Suche Kontakt | |||||
Quick-Index
Einleitung - Formate - Quellen und Literatur
Sie haben schon öfters nach einem Dokument gefragt und erhalten per Mail ein Word-Dokument als Attachment? Und Sie haben sich dabei nicht geärgert? Gut, dann arbeiten Sie mit Windows und haben auch ein - selbstverständlicherweise - lizensiertes Office-Produkt der Firma Microsoft. Aber längst nicht alle PC-User haben dieses Programm zur Verfügung. Und genau darum gilt es sich zu überlegen, was man dagegen machen.
Dabei muss vor allem unterschieden werden, für welches Medium der Text konzipiert wurde. Wenn man fürs Web Dateien erstellen will (digitales Publizieren), unterscheiden sich das Design, die Präsentation, die Portabilität und viele weitere Faktoren komplett von einer Datei, die für eine Zeitschrift erstellt wurde.
MS-Office möchte an dieser Stelle das universale Tool für Text werden, unabhängig von dem gewünschten Einsatzzweck. Eine Freeware-Alternative ist das Office-Produkt OpenOffice der Firma Sun. Es ist für mehrere Plattformen kostenlos verfügbar. Zumindest den Vergleich mit Office-Podukten der Firma Microsoft braucht es nicht zu scheuen. Sogar In- und Export von Microsoft-Dateien beherrscht es. Allerdings versucht OpenOffice nur eine Alternative zu MS-Office zu sein. Es soll dann auch noch die Menschen geben, die OpenOffice verwenden, weil Sie Microsoft-Produkte vermeiden und universal sein möchten, dann aber erst die Mail mit einem Attachment in Form von einer .doc-Datei senden.
Und genau an dieser Stelle möchte ich jetzt Einhacken, es geht an dieser Stelle nicht um solche Office-Riesenpakete, sondern um wirkliche Alternativ-Dokumente. Den Bereich Dokumentformate will ich jetzt ein wenig genauer beleuchten.
Den meisten Internet-Usern sollten die Begriffe JPEG, GIF und PNG ein Begriff sein. Office-User sollten zumindest die Grafikformate BMP und TIFF kennen. Deswegen an dieser Stelle nur ein kurzer Exkurs in die Welt der Grafiken.
Ein Bitmap ("Bilder") speichert Bildpunkte (Pixel). Die
Bildfläche wird dabei in Punkte aufgeteilt. Pro Bildpunkt können unterschiedliche
Informationen abgelegt werden. Bitmap-Formate sind z.B. TIF (auch TIFF), TGA
(Targa-Format für Dia-Belichter), BMP (Windows-Bitmap), DIB (Device Independant Bitmap,
verbessertes BMP für Multimedia-Anwendungen) und PCX (PC Paintbrush, DOS-Bitmap).
Mit Bitmaps arbeiten ist sehr speicherintensiv und ein großer Nachteil ist, dass sie
zum Skalieren nicht sehr gut geeignet sind. Bitmaps werden nicht komprimiert und eignen
sich daher für die Webpublizierung kaum bis gar nicht. BMP ist dabei das bekannteste
und vor allem in der Windows-Welt sehr verbreitete Bitmap. Durch die fehlende
Komprimierung ist es allerdings nicht sehr einsatzfreudig.
Das Vektor-Format ("Zeichnungen") speichert mathematische Vorschriften, nach denen die Grafikelemente erzeugt werden, dadurch sind die Bilddaten auflösungsunabhängig. Vektor-Formate sind z.B. CDR (Corel Draw), AI (Adobe Illustrator), DWF/DXF (Drawing Exchange Format, Auto CAD), PostScript und EPS (Encapsulated PostScript). Vektor-Grafiken sind im Vergleich zu Bitmap-Grafiken nicht sehr speicherintensiv und eignen sich sehr gut zum Skalieren von Bildern, da die Pixel nicht einzeln sondern im Verhältnis zu anderen Daten gespeichert werden.
Sogenannte Metafiles können Bitmap- und Vektor-Grafiken enthalten. Metafile-Formate sind z.B. Macintosh PICT, EPS, CGM (Computer Graphics Metafile) und WMF (Windows Metafile).
Für das Web gibt es eigene "Web-Formate". Um die Übertragungszeiten von Websites möglichst gering zu halten, sollten Bilder im Web wenig speicherintensiv sein. Spezielle Dateiformate, die das Komprimieren von Bildern unterstützen, sind GIF, JPG und PNG (alle Bitmaps).
Beim Austausch von Bildern soll daher an den Verwendungszweck gedacht werden, um unnötiges Verbrauchen von Ressourcen zu vermeiden.
Dieses Format entwickelt sich leider immer mehr zum Standard unter
nicht-professionellen Computer-Usern. Dadurch werden teilweise auch professionelle User
gezwungen, auf dieses Format kompatibel zu reagieren ;-(. Da Microsoft Word nur für
Windows und MAC-PCs verfügbar ist und selbst zwischen diesen beiden Versionen (und auch
versch. Versionsnummern auf der gleichen(!) Plattform) Kompatibilitäsprobleme
vorherrschen, ist die Verfügbarkeit sowie die Austauschbarkeit nicht 100% gegeben. Wenn
man sich sicher ist, dass die Gegenseite dieses Format problemlos öffnen sowie
bearbeiten kann, sowie dass die Dokumente keine unsicheren Makros enthalten, spricht
nichts gegen die Verwendung diese Formates.
Anmerkend sei noch auf die Links zum
Thema "Word als Austauschformat" am
Ende dieser Webpage hingewiesen.
Alle Systeme bzw. deren Editoren beherrschen ASCII, dadurch ist 100% Verfügbarkeit gegeben. Ein ASCII-Text ist bis auf Zeilenumbrüche und einige wenige, verbreitete Markierungen wie *fett*, _unterstrichen_ und /kursiv/ nicht strukturierbar. Somit können einzelne Textbestandteile nicht besonders gekennzeichnet werden, weder als logisches Element noch mit Hilfe einer Layoutauszeichnung. Dies ist wohl als der größte Nachteil dieses Format zu betrachten.
1985 stellte die Firma Adobe Systems das Format Postscript vor, das sich aufgrund
seiner herausragenden Eigenschaften in kurzer Zeit zu einem
Industriestandard entwickelte. In Postscript können textuelle und
graphische Elemente geräte- und auflösungsunabhängig definiert werden, d.h. die Ausgabe
eines Dokuments auf dem Bildschirm und auf dem Drucker ist identisch. Postscript ist
eine Seitenbeschreibungssprache und somit stark layoutfixiert, d.h. von einer eventuell
früher vorhandenen logischen Struktur eines Dokuments ist nach einer Konvertierung in
Postscript nichts mehr zu entdecken. Ein Postscript-Dokument wird meist durch eine
Konvertierung erzeugt, d.h. ein direktes Erstellen von Dateien ist aufgrund der
Komplexität und der Layoutorientierung in der Regel nicht möglich. Meist werden Datei-
oder Druckerfilter genutzt, die Postscript erzeugen. Viele Drucker besitzen die
Fähigkeit, Postscriptdateien direkt zu drucken. Für alle gängigen Plattformen und
Betriebssysteme sind gute Werkzeuge zur Erstellung und Konvertierung von Dokumenten
frei verfügbar (z.B. Ghostscript). Postscript-Dokumente lassen sich im allgemeinen
nicht bearbeiten (eingeschränkte Editierbarkeit ist mit Spezialsoftware möglich).
Durch den erworbenen Status als Industriestandard ist Postscript auf allen Plattformen
verfügbar. Es gibt sowohl frei verfügbare als auch kommerzielle Software zur Erzeugung
und Darstellung von Postscript-Dokumenten. Auch von Postscript existieren mehrere
Versionen, die aber jeweils klar definiert sind.
Dieses Format, das ebenfalls von Adobe entworfen wurde, ist als
Weiterentwicklung von Postscript anzusehen. Gerade unter dem Einfluß
des World Wide Web war es sinnvoll, ein Format zu entwickeln, das ebenso wie Postscript
geräte- und auflösungsunabhängig Dokumente darstellt, andererseits aber auf neue
Entwicklungen wie Hyperlinks usw. Rücksicht nimmt. So ist PDF weiterhin eine
seitenorientierte Sprache, implementiert aber Features wie Links, Anmerkungen,
Bookmarks, interaktive Elemente, sprachspezifische Zeichen, Kopierschutzfunktionen und
zahlreiche Präsentationsoptionen. Es basiert auf dem sogenannten Hypertextkonzept.
Weiterhin wurde das Fonthandling wesentlich verbessert, so dass auch Nutzer, die den
einen oder anderen Font nicht zur Verfügung haben, das Dokument ohne Layouteinbußen
ansehen können. Durch eine interne Komprimierung konnte die Dateigröße reduziert
werden. PDF erfreut sich inzwischen wachsender Beliebtheit bei der elektronischen
Publikation von Dokumenten, nichtzuletzt durch die Verfügbarkeit von Plugins für
WWW-Browser, die damit PDF direkt im Fenster darstellen können. Trotzdem wird auch bei
diesem Format die eventuell vorhandene Struktur des Ausgangstextes weitgehend
vernichtet. Eine interessante Weiterentwicklung, Encapsulated PDF, das
Strukturinformationen in für PDF-Dateien wieder verfügbar machen sollte, ist nicht über
einen technical report im Jahre 1995 hinausgekommen, obwohl die Ziele des Projekts
recht vielversprechend klangen.
Die Verfügbarkeit von PDF ist dank dem kostenlosem Programm Acrobat Reader von Adobe
auf fast allen Plattformen gewährt. Der Reader integriert dabei Funktionen wie Suche im
Dokument, Seitennavigation und Druck. Auch die GNU-Software Ghostscript ist inzwischen
in der Lage, PDF-Dateien zu verarbeiten, allerdings mit eingeschränktem
Funktionsumfang. PDF-Dokumente werden durch Konvertierung aus einem Quellformat, wie
z.B. MS-Word erzeugt. Dazu muss allerdings auf die nur kommerziell verfügbaren Produkte
der Acrobat-Reihe, wie Distiller oder Exchange zurückgegriffen werden. Diese erlauben
die Erstellung von PDF-Dokumenten direkt aus der eigenen Textverarbeitung heraus und
das Einfügen von Bookmarks oder Hyperlinks.
Das RTF-Format wurde von Microsoft entwickelt, um den Dokumentenaustausch zwischen verschiedenen Rechnersystemen zu ermöglichen. Primär war hier der Austausch zwischen MS-Word-Versionen auf PC und Macintosh gemeint, jedoch wurde das Format nach und nach in fast alle gängigen Textverarbeitungen integriert, so dass das Speichern und Lesen von RTF-Dokumenten relativ unproblematisch ist. Doch obwohl eine detaillierte Spezifikation des Formats von Microsoft verfügbar ist, existiert doch eine Reihe von Dokumenten, die von diesem oder jenem Textverarbeitungsprogramm nicht gelesen werden kann. Von einer 100%-igen Austauschbarkeit kann deshalb nicht gesprochen werden.
Wer mit mathematischen Formeln gespickte Arbeiten zu schreiben hat, die auch noch
eine hohe Layoutqualität besitzen sollen, der ist mit einiger
Sicherheit nicht an TeX (sprich "tech") vorbeigekommen. TeX ist keine
Textverarbeitung, sondern ein Satzsystem, das sich besonders in
naturwissenschaftlichen Kreisen durchgesetzt hat. Es ist also eine
Seitenbeschreibungs- und Programmiersprache. TeX wurde 1982 von Donald E. Knuth
geschrieben, mit dem Zweck, seine Buchserie "The Art of Computer Programming"
professionell layouten bzw. setzen zu können.
Die Ausgabe eines TeX-Systems braucht sich im Allgemeinen nicht hinter einer
professionell gelayouteten zu verstecken. LaTeX ist ein weitverbreitetes Makropaket,
das die Arbeit wesentlich vereinfacht und die logische Auszeichnung von
Textbestandteilen ermöglicht. Nur wenige Anwender benutzen noch das reine TeX-System,
da es für die tägliche Benutzung bei weitem zu kompliziert ist. TeX ist an und für sich
nur ein Makro-Compile mit wenigen eingebauten Anweisungen.
Das TeX-System ist auf allen Rechnerplattformen frei verfügbar. Eine komplette
Installation beinhaltet nicht nur das Grundsystem, sondern z.B. auch eine Reihe von
Makropaketen für unterschiedlichste Anwendungszwecke und Fontgeneratoren.
TeX-Source-Files werden in das DVI-Format übersetzt und danach meist nach Postscript
konvertiert. TeX ist ein äußerst leistungsfähiges System, in dem sich komplexe
Dokumente in Layoutqualität erstellen lassen.
Die Benutzung ist deshalb für Laien speziell am Anfang schwieriger zu erlernen als z.B.
MS-Word. Die Verbreitung ist aus diesem Grunde leider teilweise noch gering. Wobei die
Dokumente nicht wie bei MS-Word nicht unter Kontrolle zu bringen sind und dadurch vor
allem bei Beherrschung des LaTeX-Systems ein weit effizienteres arbeiten möglich ist.
Zumindest nach einer kurzen Einarbeitungsphase in das LaTeX-System sollten
Standard-Dokumente die man im Alltag braucht sehr gut machbar sein.
Die Standard Generalized Markup Language wurde im Jahre 1986 als
ISO-Standard verabschiedet (ISO 8879). Die eigentliche Entwicklung
begann wesentlich früher, und zwar 1969 durch Charles Goldfarb, der die GML
entwickelte. Ziel war es, ein Format für den Austausch von Informationen und
Dokumenten zu entwerfen, das im Gegensatz zu allen anderen bisher besprochenen Formaten
die Struktur eines Dokuments in den Vordergrund stellt und nicht die konkrete
Erscheinungsform auf einem bestimmten Medium. Während die meisten Dateiformate mehr
oder weniger die Formatierungsanweisungen integrieren, sind solche Informationen in
einer SGML-Datei nicht vorhanden. Diese müssen vielmehr in einer separaten
Styledefinition festgelegt werden. Die Vorteile liegen klar auf der Hand: Ein und
dasselbe SGML-Dokument lässt sich durch die Angabe verschiedener Styles auf
unterschiedlichen Medien ausgeben. Streng genommen ist SGML aber kein Dateiformat wie
TeX oder auch HTML, vielmehr eine Metasprache, in der sogenannte Document Type
Definitions (DTD) beschrieben werden können. Eine DTD wird für eine Klasse
gleichartiger Dokumente (z.B. Geschäftsbriefe) definiert. Wenn also von einem
SGML-Dokument gesprochen wird, ist meist ein Dokument gemeint, das mit einer durch die
SGML-Metasprache definierten DTD strukturiert wurde. Eine DTD besteht aus der
Aufzählung und Verkettung logischer Elemente, z.B. Überschriften, Absätze, Fußnoten
usw. Dabei wird genau festgelegt, in welchem Kontext, in welcher Reihenfolge und wie
oft diese Elemente im Dokument vorkommen können oder müssen. Diese Elemente werden als
Tags bezeichnet und werden üblicherweise durch spitze Klammern begrenzt, z.B.
<Heading1>. Ein SGML-Dokument wird dann entsprechend einer anzugebenden DTD
erstellt. Das Erscheinungsbild wird wie erwähnt dabei nicht festgelegt - das ist Sache
eines SGML-Browsers oder eines anderen Konverters, der unter Zuhilfenahme eines
Stylefiles Überschriften der Größe 1 z.B. auf Arial 14 pt festlegt.
Die Erstellung von SGML-Dokumenten kann mit einem normalen Editor erfolgen, was aber
kompliziert ist, da ja die durch die DTD festgelegten und z.T. komplizierten Regeln
beachtet werden müssen. Echte SGML-Editoren (z.B. Author/Editor oder Framemaker+SGML)
sind da wesentlich komfortabler. Diese sind jedoch in der Regel nur kommerziell und
auch nur für bestimmte Plattformen verfügbar. Die Preise für diese Systeme sind im
allgemeinen sehr hoch und für einen Privatanwender derzeit nicht erschwinglich. Auch
die Bedienung dieser Systeme erfordert weit mehr Erfahrung und Übung als beispielsweise
das Schreiben eines Textes mit Word für Windows. Der Markt an public-domain-Editoren
beschränkt sich auf einen SGML-Modus von Emacs. Zum Parsen und Konvertieren von
Dokumenten stehen weit mehr Tools für unterschiedlichste Plattformen zur Verfügung.
Mit der Entwicklung des WWW als völlig neuartigem Medium für den
Informationsaustausch im Internet wurde die Sprache bzw. das Dateiformat HTML kreiert,
wobei nicht nur Texte, sondern auch Graphiken integriert werden sollten und vor allen
Dingen auch Hyperlinks auf andere Dokumente gesetzt werden können. Mit der rasanten
Verbreitung des WWW wurde eine Standardisierung notwendig, die durch das W3-Konsortium
vorangetrieben wurde. Man orientierte sich dabei an SGML und beschrieb HTML als eine
Dokumenttypdefinition (DTD), so dass beliebige Dokumente damit im Internet bzw. WWW
publiziert werden konnten. Obwohl SGML die Trennung von Struktur und Layout vorsieht,
konnte das bei HTML nicht durchgehalten werden, so dass viele Tags nicht nur eine
logische, sondern auch physische Layoutdefinition vornehmen. Um dieses Problem zu
beheben, wurden und werden Style-Standards, wie z.B. CSS - Cascading
Style Sheets, entwickelt, die Großteils schon in aktuellen WWW-Browsern implementiert
sind. Je nach Unterstützung durch die Softwarehersteller ist eine Migration nach XML
abzusehen, die eine strenge Festlegung auf ein wohldefiniertes Set von HTML-Tags
überflüssig macht. XML besitzt einen eingeschränkten Funktionsumfang gegenüber SGML,
jedoch lassen sich wie dort DTDs für beliebige Dokumentklassen entwickeln, so dass man
nicht wie bei HTML auf ein abgegrenztes Set von Tags angewiesen ist. Der große Vorteil
wird darin bestehen, dass die Browser-Hersteller schon jetzt dabei sind, ihre Programme
XML-fähig zu machen. Dazu muss für jedes Dokument ein entsprechender Style verfügbar
sein, da die Browser dann nicht mehr eine eigenmächtige Formatierung durchführen.
Für HTML wurden in vielen Browsern schon Implementationen der "Cascading Style
Sheets"(CSS) vorgenommen, die jedoch vor allem noch mangelnde Unterstützung von
CSS in Version 2 (momentan aktuell) bieten. Für XML scheint sich die "eXtended
Style Language" (XSL), eine Untermenge von DSSSL, durchzusetzen.
HTML-Dokumente lassen sich sowohl mit Editoren als auch Webdesign-Studios erstellen.
Viele von diesen Editoren sind frei erhältlich bzw. schon im Betriebssystem verankert.
Zur Darstellung der HTML-Dokumente werden Browser verwendet, die Großteils frei
erhältlich sind. HTML ist somit beinahe 100% verfügbar, allerdings ist es nicht das
optimale Austauschformat, da eine komplizierte Handhabung im Vergleich zu reinen
Textdateien durch die Implementierung von Tags vorhanden ist.
Austauschen und Konvertieren von Grafik-Dateien - Klaus Tormählen
Daniel Johst: "Dateiformate für das elektronische Publizieren"
![]() |
|
Ein als Nachschlagewerk konzipiertes Buch, das sehr hilfreich und umfangreich ist. Auch aktuell, da gerade erst neu überarbeitet. Enthält auch ein XML-Kapitel. Absolut empfehlenswert für jeden Multimedia-, Dateiformate-Interessierten! |
Ich habe zum Thema "Word als Austauschformat" eine gute Webpage von Subotnik gefunden.