NFsec Logo

Czytanie dokumentów SXW bez OpenOffice

25/01/2010 w Hacks & Scripts Brak komentarzy.  (artykuł nr 221, ilość słów: 182)

Z

godnie z informacjami z Wikipedii o formacie .sxw:

SXW to rozszerzenie plików zawierających dokumenty tekstowe pakietu OpenOffice.org w wersji 1.x. Plik .sxw jest skompresowanym plikiem w formacie ZIP, wewnątrz którego znajdują się pliki XML opisujące strukturę dokumentu oraz ewentualne obiekty osadzone w jego wnętrzu, takie jak rysunki, wykresy i in. Na bazie formatu .sxw powstał używany w OpenOffice.org 2.x oraz innych procesorach tekstu format ODT, opisany w specyfikacji OpenDocument.


Dlatego, jeśli pragniemy odczytać zawartość pliku *.sxw np. w terminalu tekstowym systemu, w którym w dodatku nie ma zainstalowanego pakietu OpenOffice wystarczy umieścić wybrany plik w osobnym katalogu, rozpakować go:

unzip dokument.sxw

oraz zainteresować się plikiem o stałej nazwie content.xml. Niestety, jak na plik XML przystało jest on wypełniony dużą ilością tagów, których można się pozbyć za pomocą języka Perl:

cat content.xml | perl -p -e  "s/< [^>]*>/ /g;s/\n/ /g;s/ +/ /;"

Zabieg ten może spowodować utratę formatowania użytego w oryginalnym dokumencie sxw, ale pozwala zapoznać się z jego zawartością w trybie tekstowym jeśli zachodzi pilna taka potrzeba.

Więcej informacji: Nuff sed, OpenOffice Forum

Kategorie K a t e g o r i e : Hacks & Scripts

Tagi T a g i : , , , ,

Komentowanie tego wpisu jest zablokowane.