Scraper wiadomości
Poniższe wymagania mogą być nad wyrost. Po przeczytaniu planu i Twojej wizji na ten projekt jesteśmy otwarci na sugestie, propozycje i inne możliwości stworzenia tego projektu.
Wymagania ogólne
1. Znajomość języka Python oraz sposobów scrapowania witryn internetowych
2. Podstawowa znajomość HTML i CSS
3. Znajomość lub gotowość nauki bibliotek takich jak: requests, sqlite, beautifulsoup4, selenium
4. Podstawowa znajomość systemu kontroli wersji git
5. Podstawowa znajomość technologii chmurowych
Wymagania szczegółowe:
1. Przygotowanie scraperów w języku Python (boty czytające strony z newsami) dla wymienionych portali z wykorzystaniem biblioteki BeautifulSoup4 lub podobnej
2. Zapis pobranych treści w formacie JSON (lub w bazie danych SQLite)
3. Automatyzacja przesyłania ww. treści do ChatGPT poprzez API wraz z odpowiednim promptem. Zapytanie powinno być sparametryzowane tak, aby model zwrócił jedynie zmienioną treść bez dodatkowego outputu.
4. Zapis wygenerowanych treści w formacie JSON lub w bazie danych SQLite
5. Automatyzacja przesyłania treści poprzez API do strony internetowej opartej na Wordpressie (ze statusem wpisu jako draft)
6. Zautomatyzowanie działania programu poprzez cron/Windows Tasks Scheduler/launchd lub inny scheduler
7. Opcjonalnie: konteneryzacja programu w Dockerze
8. W przyszłości: zdeployowanie aplikacji w serwisie chmurowym (Heroku, AWS, GCP lub innym)
Plan
To jest wyłączne wizja działania, jesteśmy otwarcie na zmiany, propozycje i sugestie. Zaczyna się od skryptu w Pythonie, który pobiera newsy ze stron internetowych (scrapowanie). To nie jest trudne technicznie ale może być upierdliwe bo trzeba pogrzebać w kodzie tych stron, czasami cos się zmieni na stronie (np. nazwa działu albo klasy która w kodzie strony trzyma tę treść). Więc oprócz napisania tych scraperów, trzeba będzie je utrzymywać potem - support od czasu do czasu w razie problemów.
Jak scraper już pobierze treść, to dobrze żeby zapisał w pliku albo jakiejś prostej bazie danych (SQLite) ją w jakimś w standardowym formacie - JSON jest spoko, bo będzie łatwiej wysłać dane do Chata albo jakiegoś innego AI. Dane wysyła się przez API i podejrzewam że JSON będzie najwygodniejszy. Z tego co patrzyłem to nie ma tu nic trudnego, trzeba tylko w ustawieniach requesta wysyłanego do Chata zdefiniować, żeby nie dodawał tych swoich wstępów tylko wypluł samo podsumowanie treści. Też zrobi to w postaci JSONa raczej i tę odpowiedź też dobrze by zapisać w jakimś pliku.
Ostatni krok to wysłanie tego do Wordpressa przez API. Widziałem, że można ustawić status wpisu (np. draft) co myślę że jest spoko opcją, bo przed publikacją możecie przejrzeć czy nie ma tam żadnych głupot. Ale jak będzie śmigało, to można zmienić status tak, żeby publikował automatycznie.
Jeśli o automatyzację chodzi, na początek bym sugerował odpalać to z łapy raz dziennie albo zaschedulować sobie na lapku - i Windows i macOS mają takie schedulery, więc możecie to puszczać raz dziennie. Myślę, że na chmurę warto to będzie wrzucić po weryfikacji jak to śmiga, żeby nie nabiło wam za wcześnie kosztów. Z szybkiego researchu Heroku może być spoko opcją, bo mają dużo ułatwień dla takich prostych programów.
Zgłoszeń do zlecenia (11)
Cześć, napisałem w wiadomości prywatnej.
Witam, W przeszłości pisałem już kilka podobnych projektów, całkiem niedawno rozwiązanie oparte na selenium, eksporcie do excela i rozsylania danych przy pomocy serwisu mailowego SendGrid poprzez schedulowany pipeline w Azure DevOps. Oferuje swoje doświadczenie i szybką realizację:)
Specjalizujemy się w wysoce zoptymalizowanych aplikacjach webowych, które są strojone pod oczekiwania klientów. Obecnie scrapujemy każdy marketplace w polsce dla indywidualnych klientów, więc napisanie scrapera stron z informacjami nie będzie problemem. Nie mogę napisać więcej przez limit znaków
Cześć, chętnie podejmę się dla Państwa wykonania takiego projektu jak i również utrzymanie go. Scrapery tworzę na codzień. Tworzyłem już do takich stron jak Twitter oraz Reddit.
Wysłałem wiadomość prywatną z informacją, zapraszam do kontaktu.
Zapraszam do kontaktu https://feelit.dev Porozmawiajmy, zaproponujemy najlepsze rozwiązanie
Witaj! Jesteśmy gotowi kompleksowo zająć się Twoim projektem! Znajdziesz nas na https://mindtricky.com Jeśli masz pytania lub chcesz omówić szczegóły, śmiało skontaktuj się ze mną przez e-mail: info@mindtricky.com Pozdrawiam, Damian:)