а нет инструкции или ссылки, как мне можно, используя, например, URLs из текстового сайта, сохранить все файлы себе на компьютер (на любом диске, это неважно), но при этом сохранив внутреннюю структуру подпапок и файлов?
идеально: я указываю путь на локально компе к текстовому файлы, содержимое которого, - строки внешних URLs, ведущие к файлам
скрипт должен создать массив всех ссылок, скачать каждый файл и сохранить их, используя относительный адрес, локально, чтобы сохранилась структура
после выполнения скрипта, например, на диске D создать папку site с содержимым: file1 file4 folder1/file1 folder2/file2 folder3/file3
то есть, это такой себе парсер, используя текстовый файл
— если есть готовые варианты, когда вместо текстового файла используется браузер, тоже подходит. просто в таком случае, мне кажется, что нужно использовать драйвер браузера типа как для селениума, чтобы эмулировать его работу и сохранять все get запросы в виде url (ибо банально один javascript файл может инициировать другие запросы друг за другом только во время загрузки iframe, например). короче говоря, я не совсем в таком случае понимаю, как, имея одну ссылку после загрузки которой идет обращение к множеству файлов вытащить весь список этих урлов программно. потому я подумал, что текстовик с готовым набором будет попроще для подобного парсера для начала
Я немного запарился с вашим вопросом не смотря на то, что я программирую более 4 лет, но если вы имели виду, что-то вытаскивать с любого сайта по URL, то тут нужен простой скрипт, и всего лишь одна библиотека - Requests. Если вы про неё, вот вам такой простенький скрипт: import requests info = requests.get("ссылка на сайт") print(info) Если вы хотели что-то другое, то я, скорее всего сделаю это следующим постом. Спасибо за вопрос! 😄
а нет инструкции или ссылки, как мне можно, используя, например, URLs из текстового сайта, сохранить все файлы себе на компьютер (на любом диске, это неважно), но при этом сохранив внутреннюю структуру подпапок и файлов?
идеально:
я указываю путь на локально компе к текстовому файлы, содержимое которого, - строки внешних URLs, ведущие к файлам
скрипт должен создать массив всех ссылок, скачать каждый файл и сохранить их, используя относительный адрес, локально, чтобы сохранилась структура
https://site/file1
https://site/folder1/file1
https://site/folder2/file2
https://site/folder3/file3
https://site/file4
после выполнения скрипта, например, на диске D создать папку site с содержимым:
file1
file4
folder1/file1
folder2/file2
folder3/file3
то есть, это такой себе парсер, используя текстовый файл
—
если есть готовые варианты, когда вместо текстового файла используется браузер, тоже подходит. просто в таком случае, мне кажется, что нужно использовать драйвер браузера типа как для селениума, чтобы эмулировать его работу и сохранять все get запросы в виде url (ибо банально один javascript файл может инициировать другие запросы друг за другом только во время загрузки iframe, например). короче говоря, я не совсем в таком случае понимаю, как, имея одну ссылку после загрузки которой идет обращение к множеству файлов вытащить весь список этих урлов программно. потому я подумал, что текстовик с готовым набором будет попроще для подобного парсера для начала
Я немного запарился с вашим вопросом не смотря на то, что я программирую более 4 лет, но если вы имели виду, что-то вытаскивать с любого сайта по URL, то тут нужен простой скрипт, и всего лишь одна библиотека - Requests. Если вы про неё, вот вам такой простенький скрипт:
import requests
info = requests.get("ссылка на сайт")
print(info)
Если вы хотели что-то другое, то я, скорее всего сделаю это следующим постом. Спасибо за вопрос! 😄