Czytanie dokumentów SXW bez OpenOffice
Napisał: Patryk Krawaczyński
25/01/2010 w Hacks & Scripts Brak komentarzy. (artykuł nr 221, ilość słów: 182)
Z
godnie z informacjami z Wikipedii o formacie .sxw:
SXW to rozszerzenie plików zawierających dokumenty tekstowe pakietu OpenOffice.org w wersji 1.x. Plik .sxw jest skompresowanym plikiem w formacie ZIP, wewnątrz którego znajdują się pliki XML opisujące strukturę dokumentu oraz ewentualne obiekty osadzone w jego wnętrzu, takie jak rysunki, wykresy i in. Na bazie formatu .sxw powstał używany w OpenOffice.org 2.x oraz innych procesorach tekstu format ODT, opisany w specyfikacji OpenDocument.
Dlatego, jeśli pragniemy odczytać zawartość pliku *.sxw np. w terminalu tekstowym systemu, w którym w dodatku nie ma zainstalowanego pakietu OpenOffice wystarczy umieścić wybrany plik w osobnym katalogu, rozpakować go:
unzip dokument.sxw
oraz zainteresować się plikiem o stałej nazwie content.xml. Niestety, jak na plik XML przystało jest on wypełniony dużą ilością tagów, których można się pozbyć za pomocą języka Perl:
cat content.xml | perl -p -e "s/< [^>]*>/ /g;s/\n/ /g;s/ +/ /;"
Zabieg ten może spowodować utratę formatowania użytego w oryginalnym dokumencie sxw, ale pozwala zapoznać się z jego zawartością w trybie tekstowym jeśli zachodzi pilna taka potrzeba.
Więcej informacji: Nuff sed, OpenOffice Forum