Zapewnienie maksymalnej kompresji plików
Napisał: Patryk Krawaczyński
04/09/2009 w Hacks & Scripts Brak komentarzy. (artykuł nr 145, ilość słów: 780)
P
rzedstawiony skrypt jest tłumaczeniem “Ensuring Maximally Compressed Files” z książki “Wicked Cool Shell Scripts” autorstwa Dave’a Taylor’a udostępnionym on-line (Skrypt #38) na stronie http://www.intuitive.com/wicked/. Do tłumaczenia zostało dodane także parę informacji od tłumacza.
Jak widzieliśmy w skrypcie #37, większość implementacji Uniksa zawiera więcej niż jedną metodę kompresji, ale to na użytkowniku spoczywa ciężar ustalenia, która z nich jest najlepsza. Typowym zachowaniem jest to, że użytkownik przyzwyczaja się do pracy tylko z jednym programem do kompresji, nie wiedząc nawet, że lepsze wyniki może osiągnąć za pomocą innego programu. Większe tego zagmatwanie powoduje to, że niektóre pliki lepiej kompresują się przy jednym algorytmie, a inne przy innym, a nie można się o tym inaczej przekonać jak za pomocą eksperymentów.
Logicznym rozwiązaniem wydaje się skrypt, który kompresuje pliki za pomocą każdego z narzędzi, a następnie wybiera jako najlepszy najmniejszy plik wynikowy. A potrafi to zrobić skrypt bestcompress. Nawiasem mówiąc, jeden z moich ulubionych w tej książce.
Kod:
#!/bin/sh # bestcompress - po wprowadzeniu pliku próbuje go skompresować wszystkimi # dostępnymi narzędziami kompresującymi, zachowując najmniejszy skompresowany # plik i informując o rezultatach użytkownika. Jeśli nie podamy flagi -a, # w strumieniu wejściowym pomija skompresowane pliki. Z="compress" gz="gzip" bz="bzip2" Zout="/tmp/bestcompress.$$.Z" gzout="/tmp/bestcompress.$$.gz" bzout="/tmp/bestcompress.$$.bz" skipcompressed=1 if [ "$1" = "-a" ] ; then skipcompressed=0 ; shift fi if [ $# -eq 0 ]; then echo "Usage: $0 [-a] file or files to optimally compress" >&2; exit 1 fi trap "/bin/rm -f $Zout $gzout $bzout" EXIT for name do if [ ! -f "$name" ] ; then echo "$0: file $name not found. Skipped." >&2 continue fi if [ "$(echo $name | egrep '(\.Z$|\.gz$|\.bz2$)')" != "" ] ; then if [ $skipcompressed -eq 1 ] ; then echo "Skipped file ${name}: it's already compressed." continue else echo "Warning: Trying to double-compress $name" fi fi $Z < "$name" > $Zout & $gz < "$name" > $gzout & $bz < "$name" > $bzout & wait # run compressions in parallel for speed. Wait until all are done smallest="$(ls -l "$name" $Zout $gzout $bzout | \ awk '{print $5"="NR}' | sort -n | cut -d= -f2 | head -1)" case "$smallest" in 1 ) echo "No space savings by compressing $name. Left as-is." ;; 2 ) echo Best compression is with compress. File renamed ${name}.Z mv $Zout "${name}.Z" ; rm -f "$name" ;; 3 ) echo Best compression is with gzip. File renamed ${name}.gz mv $gzout "${name}.gz" ; rm -f "$name" ;; 4 ) echo Best compression is with bzip2. File renamed ${name}.bz2 mv $bzout "${name}.bz2" ; rm -f "$name" esac done exit 0
Jak to działa:
Najciekawszą linią tego skryptu jest:
smallest="$(ls -l "$name" $Zout $gzout $bzout | awk '{print $5"="NR}' | sort -n | cut -d= -f2 | head -1)"
W wierszu tym ls generuje rozmiar każdego pliku (oryginalny i trzech plików skompresowanych, w znanym porządku), za pomocą awk wycina same rozmiary plików, sortuje je numerycznie i generuje numer wiersza z najmniejszym plikiem wynikowym. Jeśli wszystkie skompresowane wersje są większe niż plik pierwotny, wynikiem jest 1 i towarzyszy mu wyświetlenie odpowiedniego komunikatu. W przeciwnym przypadku funkcja smallest wskaże, kto z trójki compress, gzip lub bzip2 najlepiej wykonał zadanie. Wówczas pozostaje przeniesienie odpowiedniego pliku do bieżącego katalogu i usunięciu pierwotnego pliku.
Inna technika w tym skrypcie godna przyjrzeniu się to:
$Z < "$name" > $Zout & $gz < "$name" > $gzout & $bz < "$name" > $bzout & wait
Trzy wywołania kompresji są wykonywane równolegle, poprzez użycie końcowego znaku &, w celu umieszczenia każdego procesu we własnej podpowłoce, a następnie mamy wywołanie polecenia wait, które zatrzymuje skrypt, aż wszystkie wywołania zostaną zakończone. Na komputerze z jednym procesorem będzie można odczuć spadek wydajności, ale na maszynie wieloprocesorowej zadanie powinno zostać rozłożone i wykonane znacznie szybciej.
Uruchamianie skryptu:
Skrypt ten należy wywoływać, podając listę plików do skompresowania. Jeśli niektóre z nich są już skompresowane, a chcemy skompresować je jeszcze bardziej, używamy flagi -a; w przeciwnym razie zostaną one pominięte.
Rezultaty:
Najlepszym przykładem pokazania działania tego skryptu jest przy pomocy pliku wymagającego kompresji:
$ ls -l alice.txt -rw-r--r-- 1 taylor staff 154872 Dec 4 2002 alice.txt
Skrypt ukrywa proces kompresowania pliku każdym z trzech narzędzi do kompresji, wyświetlając tylko rezultaty:
$ bestcompress alice.txt Best compression is with compress. File renamed alice.txt.Z
Widać, że nowy plik jest znacznie mniejszy:
$ ls -l alice.txt.Z -rw-r--r-- 1 taylor wheel 66287 Jul 7 17:31 alice.txt.Z
Więcej informacji: Shell Script, awk –usage, man compress, gzip, bzip2