> For the complete documentation index, see [llms.txt](https://eaclouddoc.eauditor.eu/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://eaclouddoc.eauditor.eu/funkcje/monitorowanie-it/strony-www.md).

# Strony WWW

## **Strony www**

Widok **Strony www** umożliwia monitorowanie odwiedzanych stron internetowych przez użytkowników systemu. Blokowanie dostępu do stron jest konfigurowane za pomocą funkcji automatyzacji DLP, natomiast widok ten oferuje trzy kluczowe akcje związane z zarządzaniem kategoriami.

<figure><img src="/files/OKBv1ZXTFLaYe4uD9tho" alt="" width="375"><figcaption></figcaption></figure>

![](/files/vGkYdJ5q9MycB85gjjuL) **Przypisz kategorię www** – możliwość przypisania kategorii do strony, podobnie jak w procesach.

![](/files/2dpiTLyvoAGDXn6HIChi)**Kategoryzuj teraz (Przeklasyfikuj)** – przycisk aktywujący mechanizm uczenia maszynowego (Machine Learning) do automatycznego kategoryzowania strony.

![](/files/04olFgRvKWPmrcdbKd79) **Zgłoś nieprawidłową kategorię (ML)** – przycisk pozwalający zgłosić błędną kategorię strony, co może wpłynąć na jej ponowną ocenę przez system.

![](/files/hKgd5jYmG2K8acWWIJk8) **Więcej szczegółów** - szczegółowe informacje o stronie, w tym tytuł otwartego okna, dokładny adres URL oraz czas aktywności i nieaktywności wyrażony w sekundach.

### Co to jest BTC Website Classification

BTC Website Classification to system automatycznej klasyfikacji stron WWW oparty na nowoczesnych algorytmach sztucznej inteligencji. Łączy uczenie maszynowe (ML) z głębokim uczeniem (DL), by analizować rzeczywistą zawartość witryny, czyli tekst, strukturę HTML, kontekst i przypisać ją do jednej z kategorii tematycznych. To znacznie skuteczniejsze podejście niż klasyczne metody (reguły URL, manualne bazy), szczególnie w dynamicznie zmieniającym się Internecie.

#### Jak działa - krok po kroku

{% stepper %}
{% step %}
**Pobranie listy adresów URL do skategoryzowania**

Adresy zostają przesłane do klasyfikatora
{% endstep %}

{% step %}
**Pobranie zawartości strony**

Kod strony zostaje pobrany w celu późniejszej jego analizy
{% endstep %}

{% step %}
**Oczyszczenie kodu strony ze zbędnych informacji**

Kod strony zostaje oczyszczony ze zbędnych danych, takich jak powtarzające się wyrazy i znaczniki HTML
{% endstep %}

{% step %}
**Machine Learning: Identyfikacja słów kluczowych za pomocą ML**

Po oczyszczeniu kodu ze zbędnych składników zostaną wyrazy (słowa kluczowe), które określają charakter witryny
{% endstep %}

{% step %}
**Deep Learning: Analiza www za pomocą sieci neuronowej**

Proces przetwarzania danych w celu zwiększenia skuteczności modelu deep learning
{% endstep %}

{% step %}
**Machine Learning: Ocena nasilenia słów kluczowych (ML)**

Powtarzające się słowa kluczowe przypisywane są do kategorii na podstawie słownika oraz określana jest ilość (nasycenie) słów w ramach poszczególnych kategorii
{% endstep %}

{% step %}
**Deep Learning: Globalna ocena strony w kontekście**

W trakcie analizy strony WWW brany jest pod uwagę cały kontekst strony, co pozwala efektywniej analizować strony wielotematyczne
{% endstep %}

{% step %}
**Ustalenie klasyfikacji strony**

Strona zostaje przypisana do kategorii, którą zidentyfikowano jako najbardziej prawdopodobną
{% endstep %}
{% endstepper %}

#### Bezpieczeństwo

**Rozpoznano język:**\
System sprawdza, czy da się poprawnie określić język strony.

* <mark style="color:$success;">**Tak -**</mark> <mark style="color:$success;"></mark><mark style="color:$success;">język został wykryty prawidłowo. To normalne i bezpieczne.</mark>
* **Nie -** języka nie udało się określić. Nie zawsze oznacza to zagrożenie, ale strony o niejednoznacznej zawartości bywają podejrzane.

**Certyfikat SSL:**\
System weryfikuje, czy strona działa przez HTTPS i ma ważny certyfikat SSL.

* <mark style="color:$success;">**Tak**</mark> <mark style="color:$success;"></mark><mark style="color:$success;">- połączenie jest szyfrowane, co zwiększa bezpieczeństwo.</mark>
* **Nie** - brak szyfrowania lub certyfikat jest nieważny. To sygnał ostrzegawczy, zwłaszcza jeśli strona wymaga logowania lub podawania danych.

**Przekierowania:**\
System sprawdza, czy strona automatycznie przekierowuje użytkownika w inne miejsce.

* **Tak** - wykryto przekierowania. Same w sobie nie muszą być groźne, ale często są używane w stronach phishingowych lub ukrywających prawdziwy adres.
* <mark style="color:$success;">**Nie**</mark> <mark style="color:$success;"></mark><mark style="color:$success;">- brak podejrzanych przekierowań.</mark>

**Bezpieczna struktura:**\
System analizuje strukturę HTML i znaczników, żeby ocenić, czy strona wygląda prawidłowo.

* <mark style="color:$success;">**Tak**</mark> <mark style="color:$success;"></mark><mark style="color:$success;">- kod strony wygląda poprawnie i nie zawiera podejrzanych elementów.</mark>
* **Nie** - wykryto anomalie, nietypowe skrypty lub elementy mogące wskazywać na manipulacje.

**Bezpieczna kategoria:**\
System sprawdza, czy strona należy do kategorii uznawanych za bezpieczne.

* <mark style="color:$success;">**Tak**</mark> <mark style="color:$success;"></mark><mark style="color:$success;">- strona mieści się w kategoriach neutralnych lub pozytywnych (np. informacje, usługi, edukacja).</mark>
* **Nie** - strona została sklasyfikowana jako potencjalnie ryzykowna. Kategorie domyślnie niebezpieczne to m.in. pornografia i hazard.

**Lista CERT:**\
System weryfikuje, czy strona widnieje w bazie CERT (<https://www.cert.pl>).

* **Tak** – strona figuruje w bazie CERT i jest uznana za niebezpieczną.
* <mark style="color:$success;">**Nie**</mark> <mark style="color:$success;"></mark><mark style="color:$success;">– strona</mark> <mark style="color:$success;"></mark><mark style="color:$success;">**nie**</mark> <mark style="color:$success;"></mark><mark style="color:$success;">znajduje się na liście zagrożeń CERT, czyli jest traktowana jako bezpieczna.</mark>

**Lista stron hazardowych:**\
System sprawdza, czy domena znajduje się w rejestrze stron hazardowych Ministerstwa Finansów (<https://hazard.mf.gov.pl>).

* **Tak** – strona jest zarejestrowana jako hazardowa i działa niezgodnie z ustawą.
* <mark style="color:$success;">**Nie**</mark> <mark style="color:$success;"></mark><mark style="color:$success;">– strona</mark> <mark style="color:$success;"></mark><mark style="color:$success;">**nie**</mark> <mark style="color:$success;"></mark><mark style="color:$success;">figuruje w rejestrze MF.</mark>

**Rozpoznano złośliwe oprogramowanie:**\
System sprawdza obecność strony w bazie URL Haus (<https://urlhaus.abuse.ch>) wykorzystywanej do identyfikowania witryn z malware.

* **Tak** – domena znajduje się w bazie URL Haus i została oznaczona jako źródło złośliwego oprogramowania.
* <mark style="color:$success;">**Nie**</mark> <mark style="color:$success;"></mark><mark style="color:$success;">– strona</mark> <mark style="color:$success;"></mark><mark style="color:$success;">**nie**</mark> <mark style="color:$success;"></mark><mark style="color:$success;">widnieje w bazie i nie została powiązana z malware.</mark>

#### Co daje to w praktyce?

Dzięki BTC Website Classification można:

* Wykrywać i blokować strony potencjalnie niebezpieczne (malware, phishing, strony hazardowe itp.).&#x20;
* Monitorować, jakie strony odwiedzają użytkownicy. To pomaga zarządzać produktywnością.&#x20;
* Automatyzować polityki dostępu np. blokowanie kategorii niewskazanych w firmie.&#x20;
* Zapewnić większe bezpieczeństwo dzięki analizie rzeczywistej zawartości, a nie tylko statycznych reguł. System radzi sobie także z nowymi, wcześniej nieznanymi stronami.&#x20;

#### Główne cechy techniczne

* Obsługuje ponad 50 języków, w tym polski.&#x20;
* Łączy dwie technologie: ML (dla słów kluczowych) i DL (dla analizy struktury i kontekstu).&#x20;
* Wsparcie przez API, łatwa integracja z zewnętrznymi systemami.

#### W jakich sytuacjach zmienia się klasyfikacja

Każda strona jest ponownie analizowana co miesiąc. Ma to szczególne znaczenie w sytuacjach, gdy zmienia się jej treść lub właściciel. Dzięki temu klasyfikacja nie „zestarzeje się” i odzwierciedla aktualny stan strony. To ważne w dynamicznym Internecie.

{% embed url="<https://www.btc.com.pl/ai/zakres-uslug/>" %}


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://eaclouddoc.eauditor.eu/funkcje/monitorowanie-it/strony-www.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
