Strony WWW

Strony www

Widok Strony www umożliwia monitorowanie odwiedzanych stron internetowych przez użytkowników systemu. Blokowanie dostępu do stron jest konfigurowane za pomocą funkcji automatyzacji DLP, natomiast widok ten oferuje trzy kluczowe akcje związane z zarządzaniem kategoriami.

  • Przypisz kategorię www – możliwość przypisania kategorii do strony, podobnie jak w procesach.

  • Kategoryzuj teraz (ML) – przycisk aktywujący mechanizm uczenia maszynowego (Machine Learning) do automatycznego kategoryzowania strony.

  • Zgłoś nieprawidłową kategorię (ML) – przycisk pozwalający zgłosić błędną kategorię strony, co może wpłynąć na jej ponowną ocenę przez system.

Kluczowe funkcjonalności

  • Przypisywanie kategorii:

    • Możliwość ręcznego przypisania kategorii do stron.

  • Kategoryzacja ML:

    • Automatyczna klasyfikacja stron za pomocą uczenia maszynowego.

  • Zgłaszanie błędnych kategorii:

    • Opcja zgłoszenia nieprawidłowej klasyfikacji w celu jej poprawienia.

  • Filtrowanie i sortowanie:

    • Możliwość przeszukiwania danych według użytkownika, komputera, IP, kategorii czy statusu bezpieczeństwa.

Klasyfikacja stron wynikaz manualnej konfiguracji lub z wykorzystania wbudowanego klasyfikatora stron www opartego o BTC AI.

Co to jest BTC Website Classification

BTC Website Classification to system automatycznej klasyfikacji stron WWW oparty na nowoczesnych algorytmach sztucznej inteligencji. Łączy uczenie maszynowe (ML) z głębokim uczeniem (DL), by analizować rzeczywistą zawartość witryny, czyli tekst, strukturę HTML, kontekst i przypisać ją do jednej z kategorii tematycznych. To znacznie skuteczniejsze podejście niż klasyczne metody (reguły URL, manualne bazy), szczególnie w dynamicznie zmieniającym się Internecie.

Jak działa - krok po kroku

1

Pobranie listy adresów URL do skategoryzowania

Adresy zostają przesłane do klasyfikatora

2

Pobranie zawartości strony

Kod strony zostaje pobrany w celu późniejszej jego analizy

3

Oczyszczenie kodu strony ze zbędnych informacji

Kod strony zostaje oczyszczony ze zbędnych danych, takich jak powtarzające się wyrazy i znaczniki HTML

4

Machine Learning: Identyfikacja słów kluczowych za pomocą ML

Po oczyszczeniu kodu ze zbędnych składników zostaną wyrazy (słowa kluczowe), które określają charakter witryny

5

Deep Learning: Analiza www za pomocą sieci neuronowej

Proces przetwarzania danych w celu zwiększenia skuteczności modelu deep learning

6

Machine Learning: Ocena nasilenia słów kluczowych (ML)

Powtarzające się słowa kluczowe przypisywane są do kategorii na podstawie słownika oraz określana jest ilość (nasycenie) słów w ramach poszczególnych kategorii

7

Deep Learning: Globalna ocena strony w kontekście

W trakcie analizy strony WWW brany jest pod uwagę cały kontekst strony, co pozwala efektywniej analizować strony wielotematyczne

8

Ustalenie klasyfikacji strony

Strona zostaje przypisana do kategorii, którą zidentyfikowano jako najbardziej prawdopodobną

Bezpieczeństwo

Rozpoznano język: System sprawdza, czy da się poprawnie określić język strony.

  • Tak - język został wykryty prawidłowo. To normalne i bezpieczne.

  • Nie - języka nie udało się określić. Nie zawsze oznacza to zagrożenie, ale strony o niejednoznacznej zawartości bywają podejrzane.

Certyfikat SSL: System weryfikuje, czy strona działa przez HTTPS i ma ważny certyfikat SSL.

  • Tak - połączenie jest szyfrowane, co zwiększa bezpieczeństwo.

  • Nie - brak szyfrowania lub certyfikat jest nieważny. To sygnał ostrzegawczy, zwłaszcza jeśli strona wymaga logowania lub podawania danych.

Przekierowania: System sprawdza, czy strona automatycznie przekierowuje użytkownika w inne miejsce.

  • Tak - wykryto przekierowania. Same w sobie nie muszą być groźne, ale często są używane w stronach phishingowych lub ukrywających prawdziwy adres.

  • Nie - brak podejrzanych przekierowań.

Bezpieczna struktura: System analizuje strukturę HTML i znaczników, żeby ocenić, czy strona wygląda prawidłowo.

  • Tak - kod strony wygląda poprawnie i nie zawiera podejrzanych elementów.

  • Nie - wykryto anomalie, nietypowe skrypty lub elementy mogące wskazywać na manipulacje.

Bezpieczna kategoria: System sprawdza, czy strona należy do kategorii uznawanych za bezpieczne.

  • Tak - strona mieści się w kategoriach neutralnych lub pozytywnych (np. informacje, usługi, edukacja).

  • Nie - strona została sklasyfikowana jako potencjalnie ryzykowna. Kategorie domyślnie niebezpieczne to m.in. pornografia i hazard.

Lista CERT: System weryfikuje, czy strona widnieje w bazie CERT (https://www.cert.pl).

  • Tak – strona figuruje w bazie CERT i jest uznana za niebezpieczną.

  • Nie – strona nie znajduje się na liście zagrożeń CERT, czyli jest traktowana jako bezpieczna.

Lista stron hazardowych: System sprawdza, czy domena znajduje się w rejestrze stron hazardowych Ministerstwa Finansów (https://hazard.mf.gov.pl).

  • Tak – strona jest zarejestrowana jako hazardowa i działa niezgodnie z ustawą.

  • Nie – strona nie figuruje w rejestrze MF.

Rozpoznano złośliwe oprogramowanie: System sprawdza obecność strony w bazie URL Haus (https://urlhaus.abuse.ch) wykorzystywanej do identyfikowania witryn z malware.

  • Tak – domena znajduje się w bazie URL Haus i została oznaczona jako źródło złośliwego oprogramowania.

  • Nie – strona nie widnieje w bazie i nie została powiązana z malware.

Co daje to w praktyce?

Dzięki BTC Website Classification można:

  • Wykrywać i blokować strony potencjalnie niebezpieczne (malware, phishing, strony hazardowe itp.).

  • Monitorować, jakie strony odwiedzają użytkownicy. To pomaga zarządzać produktywnością.

  • Automatyzować polityki dostępu np. blokowanie kategorii niewskazanych w firmie.

  • Zapewnić większe bezpieczeństwo dzięki analizie rzeczywistej zawartości, a nie tylko statycznych reguł. System radzi sobie także z nowymi, wcześniej nieznanymi stronami.

Główne cechy techniczne

  • Obsługuje ponad 50 języków, w tym polski.

  • Łączy dwie technologie: ML (dla słów kluczowych) i DL (dla analizy struktury i kontekstu).

  • Wsparcie przez API, łatwa integracja z zewnętrznymi systemami.

W jakich sytuacjach zmienia się klasyfikacja

System przewiduje ponowną analizę stron jeśli zawartość się zmieni, strona zostanie przebudowana, dzięki czemu klasyfikacja nie „zestarzeje się”. To ważne w dynamicznym Internecie.

Last updated

Was this helpful?