Opis zlecenia
Potrzebuję pająka do zbierania ogłoszeń z różnych portali. Najważniejsze: olx, otodom, domy.pl, gumtree, gratka, trojmiasto.pl, morizon, Docelowo kilkadziesiąt. Do określenia czy wersja desktopowa /serwerowa / hybryda, przechodzi przez proxy czy nie.
Elementy:
1.Przechodzi po zdefiniowanych przeze mnie podstronach (działach). Konieczny panel usera do dodawanie/edytowanie/usuwanie portali i podstron;
2. Omija zabezpieczenia ze stron portali (to jest jeden z trudniejszych elementów);
3. Wykrywanie na tych podstronach co jest ogłoszeniem a co nie (po zdefiniowanych słowach kluczowych);
4. Sprawdzanie linków tych ogłoszeń z historią już pobranych;
5. Wykrywanie co jest treścią ogłoszenia a co reklamą;
6. Przeszukiwanie treści ogłoszenia (w zdefiniowanych tagach) w poszukiwaniu słów wykluczających;
7. Poszukiwanie telefonu/emaila w określonym polu ew w polach alternatywnych;
8. Nie pobieranie telefonu ze zdefiniowanych ciągów (w ogłoszeniach bywają ciągi cyfr podobnych do telefonu ale dot. czegoś innego);
9. Odkodowywanie telefonu/emaila (to jest jeden z bardziej rozbudowanych i trudnych elementów);
ew odcinanie prefixu +48
10. Sprawdzanie czy telefon należy do bazy wykluczonych (wtedy nie pobiera treści i przechodzi do następnego)
11. Pobieranie, przydzielanie do odpowiedniej kategorii, ew. czyszczenie treści, zapisywanie, wyciąganie z treści informacji i zapisywanie w osobnych polach (np. cena, dane adresowe)
12. Zapisywanie do historii pobranych + eksport do bazy zewnętrznej
13. Panel usera najprostszy graficznie jak się da z funkcjami definiowania, klonowania, podglądu poszczególnych etapów, raporty błędów, statystyki
14. Skrócona dokumentacja dla ew. kontynuatorów
Proszę o określenie o czym rozmawiamy:
- masz gotowy ap, ap do zaadaptowania, ktoś ma/miał i pomoże, nic nie ma ale możemy eksperymentować itd
- co ze wsparciem posprzedażowym
środowisko wstępnie określone ale to tylko przykład