Нейросеть выучила «язык даркнета»

По инф. hightech.fm   
20.05.2023 17:00

Программисты из Южной Кореи разработали DarkBERT — языковую модель, обученную на основе информации из даркнета. ИИ можно использовать для поиска и индексации информации, распространяемой в «скрытом» сегменте интернета.

Нейросеть выучила «язык даркнета»

Даркнет — это часть Интернета, которая остается скрытой и недоступной через стандартные веб-браузеры. Здесь распространены анонимные веб-сайты и торговые площадки, которые способствуют незаконной деятельности. Среди них — сайты по торговле наркотиками, оружием продаже украденных данных.

Недавние исследования показали, что существуют явные различия в языке, используемом в даркнете, по сравнению с языком основного интернета. Поэтому существующие языковые модели плохо справляются с анализом данных в теневом сегменте интернета. Программисты подключили свою модель к сети Tor, популярной системы, используемой для анонимизации в интернете. Им удалось собрать необработанные данные даркнета для создания базы и обучения ИИ.

Исследователи считают, что DarkBERT можно использовать для различных целей кибербезопасности, включая выявление веб-сайтов, которые продают программы-вымогатели или публикуют конфиденциальные данные. Кроме того, он может ежедневно просматривать регулярно обновляемые форумы даркнета и следить за любым незаконным обменом информацией.

Программисты протестировали эффективность работы свой модели по сравнению с популярными ИИ и программой RoBERTa, которую исследователи разработали еще в 2019 году для поиска «намеренно скрытых участков текста в неаннотированном языке». Анализ показал, что DarkBERT превосходит известные аналоги в качестве поиска и классификации информации в даркнете.

Ещё кое-что из новостей прогресса:

По инф. hightech.fm

Новости о всякой всячине

 

Владислав Толстов - книжный рецензент

Видеосюжеты
Сергей Шмидт: Срок