Scraper wiadomości - WorkConnect
avatar
Kamil Dobrowolski

Scraper wiadomości

HTML
CSS
Python
Opublikowano: 3 tygodnie temu

Poniższe wymagania mogą być nad wyrost. Po przeczytaniu planu i Twojej wizji na ten projekt jesteśmy otwarci na sugestie, propozycje i inne możliwości stworzenia tego projektu. 


Wymagania ogólne 


1. Znajomość języka Python oraz sposobów scrapowania witryn internetowych 

2. Podstawowa znajomość HTML i CSS 

3. Znajomość lub gotowość nauki bibliotek takich jak: requests, sqlite, beautifulsoup4, selenium 

4. Podstawowa znajomość systemu kontroli wersji git 

5. Podstawowa znajomość technologii chmurowych 


Wymagania szczegółowe: 

1. Przygotowanie scraperów w języku Python (boty czytające strony z newsami) dla wymienionych portali z wykorzystaniem biblioteki BeautifulSoup4 lub podobnej 


2. Zapis pobranych treści w formacie JSON (lub w bazie danych SQLite) 


3. Automatyzacja przesyłania ww. treści do ChatGPT poprzez API wraz z odpowiednim promptem. Zapytanie powinno być sparametryzowane tak, aby model zwrócił jedynie zmienioną treść bez dodatkowego outputu. 


4. Zapis wygenerowanych treści w formacie JSON lub w bazie danych SQLite 


5. Automatyzacja przesyłania treści poprzez API do strony internetowej opartej na Wordpressie (ze statusem wpisu jako draft) 


6. Zautomatyzowanie działania programu poprzez cron/Windows Tasks Scheduler/launchd lub inny scheduler 


7. Opcjonalnie: konteneryzacja programu w Dockerze 


8. W przyszłości: zdeployowanie aplikacji w serwisie chmurowym (Heroku, AWS, GCP lub innym) 


Plan 


To jest wyłączne wizja działania, jesteśmy otwarcie na zmiany, propozycje i sugestie. Zaczyna się od skryptu w Pythonie, który pobiera newsy ze stron internetowych (scrapowanie). To nie jest trudne technicznie ale może być upierdliwe bo trzeba pogrzebać w kodzie tych stron, czasami cos się zmieni na stronie (np. nazwa działu albo klasy która w kodzie strony trzyma tę treść). Więc oprócz napisania tych scraperów, trzeba będzie je utrzymywać potem - support od czasu do czasu w razie problemów. 


Jak scraper już pobierze treść, to dobrze żeby zapisał w pliku albo jakiejś prostej bazie danych (SQLite) ją w jakimś w standardowym formacie - JSON jest spoko, bo będzie łatwiej wysłać dane do Chata albo jakiegoś innego AI. Dane wysyła się przez API i podejrzewam że JSON będzie najwygodniejszy. Z tego co patrzyłem to nie ma tu nic trudnego, trzeba tylko w ustawieniach requesta wysyłanego do Chata zdefiniować, żeby nie dodawał tych swoich wstępów tylko wypluł samo podsumowanie treści. Też zrobi to w postaci JSONa raczej i tę odpowiedź też dobrze by zapisać w jakimś pliku. 


Ostatni krok to wysłanie tego do Wordpressa przez API. Widziałem, że można ustawić status wpisu (np. draft) co myślę że jest spoko opcją, bo przed publikacją możecie przejrzeć czy nie ma tam żadnych głupot. Ale jak będzie śmigało, to można zmienić status tak, żeby publikował automatycznie. 


Jeśli o automatyzację chodzi, na początek bym sugerował odpalać to z łapy raz dziennie albo zaschedulować sobie na lapku - i Windows i macOS mają takie schedulery, więc możecie to puszczać raz dziennie. Myślę, że na chmurę warto to będzie wrzucić po weryfikacji jak to śmiga, żeby nie nabiło wam za wcześnie kosztów. Z szybkiego researchu Heroku może być spoko opcją, bo mają dużo ułatwień dla takich prostych programów.

Zgłoszeń do zlecenia (11)

avatar
PRO image
Jakub Wolert

Cześć, napisałem w wiadomości prywatnej.

avatar
PRO image
Maciej Cymanski

Witam, W przeszłości pisałem już kilka podobnych projektów, całkiem niedawno rozwiązanie oparte na selenium, eksporcie do excela i rozsylania danych przy pomocy serwisu mailowego SendGrid poprzez schedulowany pipeline w Azure DevOps. Oferuje swoje doświadczenie i szybką realizację:)

avatar
PRO image
Oskar Orda

Specjalizujemy się w wysoce zoptymalizowanych aplikacjach webowych, które są strojone pod oczekiwania klientów. Obecnie scrapujemy każdy marketplace w polsce dla indywidualnych klientów, więc napisanie scrapera stron z informacjami nie będzie problemem. Nie mogę napisać więcej przez limit znaków

avatar
PRO image
Maciej Pal

Cześć, chętnie podejmę się dla Państwa wykonania takiego projektu jak i również utrzymanie go. Scrapery tworzę na codzień. Tworzyłem już do takich stron jak Twitter oraz Reddit.

avatar
PRO image
Tomasz Malik

Wysłałem wiadomość prywatną z informacją, zapraszam do kontaktu.

avatar
PRO image
Adam Michna

Zapraszam do kontaktu https://feelit.dev Porozmawiajmy, zaproponujemy najlepsze rozwiązanie

avatar
PRO image
Damian Zieliński

Witaj! Jesteśmy gotowi kompleksowo zająć się Twoim projektem! Znajdziesz nas na https://mindtricky.com Jeśli masz pytania lub chcesz omówić szczegóły, śmiało skontaktuj się ze mną przez e-mail: info@mindtricky.com Pozdrawiam, Damian:)

Budżet

10000 PLN

Opublikowano:
3 tygodnie temu
Liczba zgłoszeń
11
Dodaj swoją ofertę (11) Wyślij wiadomość do zleceniodawcy
Budżet
10000 PLN
Dodaj ofertę (11)