В последнее время я всё чаще натыкаюсь на новостные статьи по поводу деанонимизации персон посредством анализа публикуемых материалов собственно самой персоной в анонимных сетях.
Суть в том, что у каждого человека, в зависимости от развития, формируется довольно специфичный набор интересов, используемых терминов и стиль изложения мыслей. И анализируя тексты, можно вычислить пользователя анонимной сети.
Хотя я и плохо отношусь к анонимным сетям как к средству создания инфраструктуры для публикации статей и публичного обмена информацией вследствие проблем доверия, а предпочитаю отстаивать позицию по поводу того, что анонимные сети нужны только для осуществления скрытых коммуникаций и обмена фактами и данными. Но это довольно большая и отдельная тема по поводу применения анонимных сетей и сводится в основном к активным действиям языком, так как в этом вопросе много нюансов.
Итак, человека можно определить по стилю изложения мыслей. Тогда встаёт вопрос о создании своеобразных клише, пользуясь которыми человека будет достаточно трудно определить. Да, это жертва оригинальностью слова, но это вполне оправданный шаг и только необходимый в узком применении))) Вот при сдаче ЕГЭ по Русскому языку приходилось многим жертвовать оригинальностью ради баллов - ничего, нужно было - сделали.
Итак, предложение такое - изучить различные тексты и подобрать максимально универсальные клише, и возможно создать приложение, которое будет в этом активно помогать и анализировать тексты в автоматическом режиме на наличие выделяющихся деталей изложения.
Получается некий "стандарт Анонимности".
vedro-compota
Sun, 05/06/2012 - 23:18
Permalink
это проблема весьма актуальна
это проблема весьма актуальна!)
теперь уточним -
если статья про компьютеры - она останется про них - иначе никак - то есть с интересами тут сложнее, куда интересней стиль изложения мыслей - более того, если вы собираетесь работать с шаблонами -то можно прямо при написании в среде подставлять готовые шаблоны - так как средства разработки от майкрософт сами предлагают подставить операторы - всё это восходит к текстовым "процессорам" вроде подобных - и анализу текстов - таких, которые скрыты ныне от глаз миллионов в проектах, которые как говорят предсказывают поведение финансовых рынков.....или сборы от показа фильмов - просто на анализу твиттов.....
то есть - уточню -
анализ текста (автоматический) - это намного сложнее , на мой взгляд ,чем его изменение - то есть лучше начинать с "процессора " , который проводит "замены" ?
При этом хочу заметить ,что "облагородить" текст куда сложнее, чем "шаблонизировать".......
добавлю - "и заменять по воле автора"
собственно -
да ещё один плюс - тема "общая" - то есть это не системное программирование, а значит , здесь может быть теоретически задействовано большее число людей -при этом абсолютная масштабируемость модульность и "наращиваемость" - то есть всё для того, чтобы "начать" и не увязнуть.
Но возможно я не правильно трактую саму задумку - так что прокомментируйте)
humanmashine
Sun, 05/06/2012 - 22:02
Permalink
А тут и трактовать то и не чего)))
Дело в том, что я просто поднял проблему. И потом предложил взяться за её решение. А каким это будет решение - это вопрос открытый.
Можно просто создать набор различных шаблонов. Можно создать словарь и методические рекомендации по стилю речи. Можно в итоге сделать программные продукты в этом помогающие. Но в основе всех решений, по моему видению, лежит некий набор рекомендаций и шаблонов. А разработка рекомендаций и шаблонов - это очень тяжёлая работа.
vedro-compota
Sun, 05/06/2012 - 23:28
Permalink
рекомендации и шаблоны - это
рекомендации и шаблоны - это скорее "внутренний " вопрос - то есть этакая техническая документация для разработки - да , конечно, она может быть опубликована- как этакие "тезисы проекта". Интерес же представляет собой текстовый редактор (модуль), с которого кстати и можно начать такой, который например позволяет писать в научном стиле - что-то типа Т9 но заточенного под определённый стиль речи. Что думаете? (1)
the_best_genius
Tue, 08/28/2012 - 14:52
Permalink
Плохая идея. При изменении
Плохая идея. При изменении текста теряется львиная доля его смысла. Особенно - если ты знаком с человеком очень близко. Конечно, если пренебречь этими потерями, то загнаться можно. Но целесообразность этого добра вызывает сомнения, по крайней мере на нашем уровне. Когда будем президентами каких-нибудь государств - тогда да, а сейчас это выглядит как параноя.
humanmashine
Tue, 08/28/2012 - 17:50
Permalink
Почему же? Да это немного
Почему же? Да это немного параноидально, но для журналистов, к примеру, вполне актуально. Вот журналист связывается с каким-то тайным информатором посредством анонимных сетей, но нашли друг-друга они на общем форуме, и переписку оставляют открытой. В этом случае все могут и почитать - часто это хорошо, но все участники хотят остаться неизвестными, как сам журналист, который не будет высовываться пока сам всё не перепроверит и не выждет подходящий момент, так и информатор.
А существующие средства анализа текстов и вероятностные модели позволяют довольно точно строить вполне удачные системы основанные на функции правдоподобия.
Т.е. для тех кто не в курсе, мы на основе теории вероятности строим функцию, которая по набору данных - в нашем случае слов и характерных словосочетаний, просто анализирует кучу других текстов различных журналистов и смотрят какой журналист имеет наибольшее значение этой функции... ну и всё, далее его под колпак, а потом можно выяснить что он пользуется скажем I2P и всё, зажимаем его пока ничего не натворил.
На таком "наивном Бфйесовском" методе основаны некоторые рекомендательные системы: вот хорошая статья http://habrahabr.ru/company/surfingbird/... .
the_best_genius
Wed, 08/29/2012 - 18:47
Permalink
Как это делается понятно.
Как это делается понятно. Другой вопрос, что нужно это все такой маленькой горстке людей, что это все вызывает подозрения изначально. Поверь, если кому-то надо разузнать "кто"- разузнают, как не шифруйся (ну если ты хочешь осложнить жизнь им и себе - то пожалуйста)
humanmashine
Thu, 08/30/2012 - 14:59
Permalink
Эти рассуждения мне
Эти рассуждения мне напоминают популярную фразу: "всё равно сдохнем, так что дёргаться". В том то и дело, что смысл обеспечения безопасности - это усложнить злоумышленнику задачу так, чтобы на её решение понадобилось слишком много ресурсов, и он либо их не имел бы в достаточном количестве, либо жалел бы потратить. А на счёт малого круга, даже малый круг - это уже беда - так легко заблудиться в трёх соснах))) Ну и тем более систему надо строить так, чтобы было трудно определить, а вообще человек пользуется ли этой системой? Да и стиль можно подстраивать под известные. Так что небольшая стая людей вполне сможет уютно пользоваться системой.