NFsec Logo

Konwertowanie stron HTML do tekstu

01/03/2008 w Techblog Brak komentarzy.  (artykuł nr 41, ilość słów: 136)

h

tml2text jest małym programikiem w postaci polecenia z linii komend używanym przez takie dystrybucje jak Gentoo czy Ubuntu. Jak sama nazwa wskazuje konwertuje on kod jak i same strony w HTML do postaci zwykłego tekstu.

By przekonwertować plik html do tekstu, wystarczy wydać polecenie:

html2text strona.html

To zwróci nam na ekranie zawartość pliku w formacie tekstu. Jeśli chcemy od razu zapisać wynik do pliku wystarczy przekierować strumień wyjścia:

html2text strona.html > strona.txt

Oczywiście możemy skorzystać z odpowiednich parametrów programu:

html2text -o strona.txt strona.html

A co jeśli byśmy chcieli przekonwertować cały katalog z plikami HTML? Sam program nie posiada odpowiednich przełączników, ale jak zawsze z pomocą przychodzi składnia powłoki systemowej:

for file in *.html; do html2text -o "${file%.*}.txt" "$file" ; done

Co umożliwia nam przekonwertowanie bardzo dużej ilości plików w bardzo krótkim czasie.

Więcej informacji: HTML2TEXT

Kategorie K a t e g o r i e : Techblog

Tagi T a g i : , , ,

Zostaw odpowiedź.

Musisz być zalogowany by móc komentować.