Метка: images

Wget Как скопировать все изображения с html + data-src

No Picture

Бывает надо слить какой то сайт, но wget сливает не все изображения. data-src например не возьмет.
Типо lazy load модная хрень.
Тогда нам надо получить список изображений, подогнать его и слить.

Первое получим список изображений из файлов *.html:

sed -n 's/.*data-src="\([^"]*\).*/\1/p' *.html

Второе если у нас все ссылки с доменом то все оке. Иначе модифицируем:

sed 's/^/https:\/\/сайт.ru\//'

Третье  и все вместе загружаем с сохранением директорий:

sed -n 's/.*data-src="\([^"]*\).*/\1/p' *.html | sed 's/^/https:\/\/сайт.ru\//' | xargs -P 5 wget -x {}
-x - сохраенения пути
-p - количество потоков