Zlecenia dla freelancerów | WorkConnect
Kamil Dobrowolski
Opublikowano 22.08.2024

Scraper wiadomości

Poniższe wymagania mogą być nad wyrost. Po przeczytaniu planu i Twojej wizji na ten projekt jesteśmy otwarci na sugestie, propozycje i inne możliwości stworzenia tego projektu. 


Wymagania ogólne 


1. Znajomość języka Python oraz sposobów scrapowania witryn internetowych 

2. Podstawowa znajomość HTML i CSS 

3. Znajomość lub gotowość nauki bibliotek takich jak: requests, sqlite, beautifulsoup4, selenium 

4. Podstawowa znajomość systemu kontroli wersji git 

5. Podstawowa znajomość technologii chmurowych 


Wymagania szczegółowe: 

1. Przygotowanie scraperów w języku Python (boty czytające strony z newsami) dla wymienionych portali z wykorzystaniem biblioteki BeautifulSoup4 lub podobnej 


2. Zapis pobranych treści w formacie JSON (lub w bazie danych SQLite) 


3. Automatyzacja przesyłania ww. treści do ChatGPT poprzez API wraz z odpowiednim promptem. Zapytanie powinno być sparametryzowane tak, aby model zwrócił jedynie zmienioną treść bez dodatkowego outputu. 


4. Zapis wygenerowanych treści w formacie JSON lub w bazie danych SQLite 


5. Automatyzacja przesyłania treści poprzez API do strony internetowej opartej na Wordpressie (ze statusem wpisu jako draft) 


6. Zautomatyzowanie działania programu poprzez cron/Windows Tasks Scheduler/launchd lub inny scheduler 


7. Opcjonalnie: konteneryzacja programu w Dockerze 


8. W przyszłości: zdeployowanie aplikacji w serwisie chmurowym (Heroku, AWS, GCP lub innym) 


Plan 


To jest wyłączne wizja działania, jesteśmy otwarcie na zmiany, propozycje i sugestie. Zaczyna się od skryptu w Pythonie, który pobiera newsy ze stron internetowych (scrapowanie). To nie jest trudne technicznie ale może być upierdliwe bo trzeba pogrzebać w kodzie tych stron, czasami cos się zmieni na stronie (np. nazwa działu albo klasy która w kodzie strony trzyma tę treść). Więc oprócz napisania tych scraperów, trzeba będzie je utrzymywać potem - support od czasu do czasu w razie problemów. 


Jak scraper już pobierze treść, to dobrze żeby zapisał w pliku albo jakiejś prostej bazie danych (SQLite) ją w jakimś w standardowym formacie - JSON jest spoko, bo będzie łatwiej wysłać dane do Chata albo jakiegoś innego AI. Dane wysyła się przez API i podejrzewam że JSON będzie najwygodniejszy. Z tego co patrzyłem to nie ma tu nic trudnego, trzeba tylko w ustawieniach requesta wysyłanego do Chata zdefiniować, żeby nie dodawał tych swoich wstępów tylko wypluł samo podsumowanie treści. Też zrobi to w postaci JSONa raczej i tę odpowiedź też dobrze by zapisać w jakimś pliku. 


Ostatni krok to wysłanie tego do Wordpressa przez API. Widziałem, że można ustawić status wpisu (np. draft) co myślę że jest spoko opcją, bo przed publikacją możecie przejrzeć czy nie ma tam żadnych głupot. Ale jak będzie śmigało, to można zmienić status tak, żeby publikował automatycznie. 


Jeśli o automatyzację chodzi, na początek bym sugerował odpalać to z łapy raz dziennie albo zaschedulować sobie na lapku - i Windows i macOS mają takie schedulery, więc możecie to puszczać raz dziennie. Myślę, że na chmurę warto to będzie wrzucić po weryfikacji jak to śmiga, żeby nie nabiło wam za wcześnie kosztów. Z szybkiego researchu Heroku może być spoko opcją, bo mają dużo ułatwień dla takich prostych programów.

10 000,00 PLN
Stała stawka
11
Ofert

Umiejętności

Aby aplikować, załóż konto na WorkConnect

Posiadasz konto? Zaloguj się

Rozpocznij swoją
przygodę
z WorkConnect!

Utwórz darmowe konto