Konwertowanie stron HTML do tekstu
Napisał: Patryk Krawaczyński
01/03/2008 w Techblog Brak komentarzy. (artykuł nr 42, ilość słów: 136)
h
tml2text jest małym programikiem w postaci polecenia z linii komend używanym przez takie dystrybucje jak Gentoo czy Ubuntu. Jak sama nazwa wskazuje konwertuje on kod jak i same strony w HTML do postaci zwykłego tekstu.
By przekonwertować plik html do tekstu, wystarczy wydać polecenie:
html2text strona.html
To zwróci nam na ekranie zawartość pliku w formacie tekstu. Jeśli chcemy od razu zapisać wynik do pliku wystarczy przekierować strumień wyjścia:
html2text strona.html > strona.txt
Oczywiście możemy skorzystać z odpowiednich parametrów programu:
html2text -o strona.txt strona.html
A co jeśli byśmy chcieli przekonwertować cały katalog z plikami HTML? Sam program nie posiada odpowiednich przełączników, ale jak zawsze z pomocą przychodzi składnia powłoki systemowej:
for file in *.html; do html2text -o "${file%.*}.txt" "$file" ; done
Co umożliwia nam przekonwertowanie bardzo dużej ilości plików w bardzo krótkim czasie.
Więcej informacji: HTML2TEXT