Kategori: XML
Modul-logo

Även MS Word skapar XML-filer

Om någon frågar om du kan leverera ett dokument som XML så kan du egentligen leverera en .docx-fil. Men det är nog inte det som frågeställaren förväntade sig.

Bakgrund

Sedan år 2007 kan man spara filer skapade i Microsoft® Word som .docx. Tidigare användes filändelsen .doc. Bokstaven x i filändelsen .docx representerar att filen är baserad på XML-standarden. Det är dock inte lätt att förstå XML-semantiken till skillnad mot andra XML-standarder såsom DITA.

Att inspektera XML- och bild-filerna i ett Word-dokument

Filer med filändelserna .docx, .pptx och .xlsx är komprimerade filstrukturer som kan packas upp.

För att se XML- och bild-filerna i exempelvis en .docx-fil, utför följande steg:

1 Lägg .docx-filen i en egen mapp och ändra filändelsen till .zip för en komprimerad mapp. docx till zip
2 Packa upp den komprimerade zip-filen. Resultatet blir en mappstruktur där mapparna innehåller olika typer av XML-filer. Mappstruktur
3 Öppna mappen word och filen document.xml. Där ligger word-dokumentets text inbäddad bland en mängd andra XML-element. XML-filer
4 Öppna mappen word/media. Om Word-dokumentet har inbäddade bildfiler blir dessa tillgängliga direkt i denna mapp. Från denna mapp kan man alltså snabbt plocka ut inbäddade bilder från ett Word-dokument. Bildfiler

Inte nödvändigt men bra att känna till

I princip kan man redigera texten i den uppackade zip-filen med valfri text-editor och redigera bilderna med valfri bild-editor. Sedan kan man komprimera filerna igen till en zip-fil och byta tillbaka till filändelsen .docx.

Men att göra på detta sätt är ju mycket svårare än att använda Microsoft Word. 😉