
Potrzebuję pająka do zbierania ogłoszeń z różnych portali. W pierwszej kolejności otodom potem chętnie olx, domy.pl, gumtree, gratka, trojmiasto.pl, morizon, Docelowo kilkadziesiąt. Możliwe też zakończenie współpracy na otodomie
Do określenia czy wersja desktopowa /serwerowa /hybryda, przechodzi przez proxy, czy jedna ap do zbierania linków/tresci czy dwie
Elementy:
1.Przechodzi po zdefiniowanych przeze mnie podstronach (działach).
2. Omija zabezpieczenia ze stron portali (to jest jeden z trudniejszych elementów);
3. Wykrywanie na tych podstronach co jest ogłoszeniem a co nie (po zdefiniowanych słowach kluczowych);
4. Sprawdzanie linków tych ogłoszeń z archiwum już pobranych;
5. Wykrywanie co jest treścią ogłoszenia a co reklamą;
6. Przeszukiwanie treści ogłoszenia (w zdefiniowanych tagach) w poszukiwaniu słów wykluczających;
(7. Poszukiwanie telefonu/emaila w określonym polu ew w polach alternatywnych)
8. Nie pobieranie telefonu ze zdefiniowanych ciągów (w ogłoszeniach bywają ciągi cyfr podobnych do telefonu ale dot. czegoś innego);
9. Odkodowywanie telefonu/emaila (to jest jeden z bardziej rozbudowanych i trudnych elementów);
ew odcinanie prefixu +48
10. Sprawdzanie czy telefon należy do bazy wykluczonych (wtedy nie pobiera treści i przechodzi do następnego)
11. Pobieranie, przydzielanie do odpowiedniej kategorii, ew. czyszczenie treści, zapisywanie, wyciąganie z treści informacji i zapisywanie w osobnych polach (np. cena, dane adresowe)
12. Zapisywanie do historii pobranych + eksport do bazy zewnętrznej
13. Panel usera najprostszy graficznie jak się da z funkcjami definiowania, klonowania, podglądu poszczególnych etapów, raporty błędów, statystyki
14. Skrócona dokumentacja dla ew. kontynuatorów
Proszę o określenie o czym rozmawiamy:
- masz gotowy ap, ap do zaadaptowania, ktoś ma/miał i pomoże, nic nie ma ale możemy eksperymentować itd
- co ze wsparciem posprzedażowym
środowisko wstępnie określone ale to tylko przykład
Podana cena orientacyjna