Strony WWW

Strony www

Widok Strony www umożliwia monitorowanie odwiedzanych stron internetowych przez użytkowników systemu. Blokowanie dostępu do stron jest konfigurowane za pomocą funkcji automatyzacji DLP, natomiast widok ten oferuje trzy kluczowe akcje związane z zarządzaniem kategoriami.

Przypisz kategorię www – możliwość przypisania kategorii do strony, podobnie jak w procesach.

Kategoryzuj teraz (Przeklasyfikuj) – przycisk aktywujący mechanizm uczenia maszynowego (Machine Learning) do automatycznego kategoryzowania strony.

Zgłoś nieprawidłową kategorię (ML) – przycisk pozwalający zgłosić błędną kategorię strony, co może wpłynąć na jej ponowną ocenę przez system.

Więcej szczegółów - szczegółowe informacje o stronie, w tym tytuł otwartego okna, dokładny adres URL oraz czas aktywności i nieaktywności wyrażony w sekundach.

Co to jest BTC Website Classification

BTC Website Classification to system automatycznej klasyfikacji stron WWW oparty na nowoczesnych algorytmach sztucznej inteligencji. Łączy uczenie maszynowe (ML) z głębokim uczeniem (DL), by analizować rzeczywistą zawartość witryny, czyli tekst, strukturę HTML, kontekst i przypisać ją do jednej z kategorii tematycznych. To znacznie skuteczniejsze podejście niż klasyczne metody (reguły URL, manualne bazy), szczególnie w dynamicznie zmieniającym się Internecie.

Jak działa - krok po kroku

Pobranie listy adresów URL do skategoryzowania

Adresy zostają przesłane do klasyfikatora

Pobranie zawartości strony

Kod strony zostaje pobrany w celu późniejszej jego analizy

Oczyszczenie kodu strony ze zbędnych informacji

Kod strony zostaje oczyszczony ze zbędnych danych, takich jak powtarzające się wyrazy i znaczniki HTML

Machine Learning: Identyfikacja słów kluczowych za pomocą ML

Po oczyszczeniu kodu ze zbędnych składników zostaną wyrazy (słowa kluczowe), które określają charakter witryny

Deep Learning: Analiza www za pomocą sieci neuronowej

Proces przetwarzania danych w celu zwiększenia skuteczności modelu deep learning

Machine Learning: Ocena nasilenia słów kluczowych (ML)

Powtarzające się słowa kluczowe przypisywane są do kategorii na podstawie słownika oraz określana jest ilość (nasycenie) słów w ramach poszczególnych kategorii

Deep Learning: Globalna ocena strony w kontekście

W trakcie analizy strony WWW brany jest pod uwagę cały kontekst strony, co pozwala efektywniej analizować strony wielotematyczne

Ustalenie klasyfikacji strony

Strona zostaje przypisana do kategorii, którą zidentyfikowano jako najbardziej prawdopodobną

Bezpieczeństwo

Rozpoznano język: System sprawdza, czy da się poprawnie określić język strony.

Tak - język został wykryty prawidłowo. To normalne i bezpieczne.
Nie - języka nie udało się określić. Nie zawsze oznacza to zagrożenie, ale strony o niejednoznacznej zawartości bywają podejrzane.

Certyfikat SSL: System weryfikuje, czy strona działa przez HTTPS i ma ważny certyfikat SSL.

Tak - połączenie jest szyfrowane, co zwiększa bezpieczeństwo.
Nie - brak szyfrowania lub certyfikat jest nieważny. To sygnał ostrzegawczy, zwłaszcza jeśli strona wymaga logowania lub podawania danych.

Przekierowania: System sprawdza, czy strona automatycznie przekierowuje użytkownika w inne miejsce.

Tak - wykryto przekierowania. Same w sobie nie muszą być groźne, ale często są używane w stronach phishingowych lub ukrywających prawdziwy adres.
Nie - brak podejrzanych przekierowań.

Bezpieczna struktura: System analizuje strukturę HTML i znaczników, żeby ocenić, czy strona wygląda prawidłowo.

Tak - kod strony wygląda poprawnie i nie zawiera podejrzanych elementów.
Nie - wykryto anomalie, nietypowe skrypty lub elementy mogące wskazywać na manipulacje.

Bezpieczna kategoria: System sprawdza, czy strona należy do kategorii uznawanych za bezpieczne.

Tak - strona mieści się w kategoriach neutralnych lub pozytywnych (np. informacje, usługi, edukacja).
Nie - strona została sklasyfikowana jako potencjalnie ryzykowna. Kategorie domyślnie niebezpieczne to m.in. pornografia i hazard.

Lista CERT: System weryfikuje, czy strona widnieje w bazie CERT (https://www.cert.pl).

Tak – strona figuruje w bazie CERT i jest uznana za niebezpieczną.
Nie – strona nie znajduje się na liście zagrożeń CERT, czyli jest traktowana jako bezpieczna.

Lista stron hazardowych: System sprawdza, czy domena znajduje się w rejestrze stron hazardowych Ministerstwa Finansów (https://hazard.mf.gov.pl).

Tak – strona jest zarejestrowana jako hazardowa i działa niezgodnie z ustawą.
Nie – strona nie figuruje w rejestrze MF.

Rozpoznano złośliwe oprogramowanie: System sprawdza obecność strony w bazie URL Haus (https://urlhaus.abuse.ch) wykorzystywanej do identyfikowania witryn z malware.

Tak – domena znajduje się w bazie URL Haus i została oznaczona jako źródło złośliwego oprogramowania.
Nie – strona nie widnieje w bazie i nie została powiązana z malware.

Co daje to w praktyce?

Dzięki BTC Website Classification można:

Wykrywać i blokować strony potencjalnie niebezpieczne (malware, phishing, strony hazardowe itp.).
Monitorować, jakie strony odwiedzają użytkownicy. To pomaga zarządzać produktywnością.
Automatyzować polityki dostępu np. blokowanie kategorii niewskazanych w firmie.
Zapewnić większe bezpieczeństwo dzięki analizie rzeczywistej zawartości, a nie tylko statycznych reguł. System radzi sobie także z nowymi, wcześniej nieznanymi stronami.

Główne cechy techniczne

Obsługuje ponad 50 języków, w tym polski.
Łączy dwie technologie: ML (dla słów kluczowych) i DL (dla analizy struktury i kontekstu).
Wsparcie przez API, łatwa integracja z zewnętrznymi systemami.

W jakich sytuacjach zmienia się klasyfikacja

Każda strona jest ponownie analizowana co miesiąc. Ma to szczególne znaczenie w sytuacjach, gdy zmienia się jej treść lub właściciel. Dzięki temu klasyfikacja nie „zestarzeje się” i odzwierciedla aktualny stan strony. To ważne w dynamicznym Internecie.

Sztuczna inteligencja - rozwiązania BTC® AIbtc®

PreviousHistoria logowań NextWydajność + Transfer sieciowy

Last updated 7 days ago

Was this helpful?

hashtagStrony www

hashtagCo to jest BTC Website Classification

hashtagJak działa - krok po kroku

hashtagBezpieczeństwo

hashtagCo daje to w praktyce?

hashtagGłówne cechy techniczne

hashtagW jakich sytuacjach zmienia się klasyfikacja