Почерк - шлейф с которым трудно справиться

В последнее время я всё чаще натыкаюсь на новостные статьи по поводу деанонимизации персон посредством анализа публикуемых материалов собственно самой персоной в анонимных сетях.

Суть в том, что у каждого человека, в зависимости от развития, формируется довольно специфичный набор интересов, используемых терминов и стиль изложения мыслей. И анализируя тексты, можно вычислить пользователя анонимной сети.
Хотя я и плохо отношусь к анонимным сетям как к средству создания инфраструктуры для публикации статей и публичного обмена информацией вследствие проблем доверия, а предпочитаю отстаивать позицию по поводу того, что анонимные сети нужны только для осуществления скрытых коммуникаций и обмена фактами и данными. Но это довольно большая и отдельная тема по поводу применения анонимных сетей и сводится в основном к активным действиям языком, так как в этом вопросе много нюансов.

Итак, человека можно определить по стилю изложения мыслей. Тогда встаёт вопрос о создании своеобразных клише, пользуясь которыми человека будет достаточно трудно определить. Да, это жертва оригинальностью слова, но это вполне оправданный шаг и только необходимый в узком применении))) Вот при сдаче ЕГЭ по Русскому языку приходилось многим жертвовать оригинальностью ради баллов - ничего, нужно было - сделали.
Итак, предложение такое - изучить различные тексты и подобрать максимально универсальные клише, и возможно создать приложение, которое будет в этом активно помогать и анализировать тексты в автоматическом режиме на наличие выделяющихся деталей изложения.
Получается некий "стандарт Анонимности".

это проблема весьма актуальна!)
теперь уточним -

"в зависимости от развития, формируется довольно специфичный набор интересов, используемых терминов и стиль изложения мыслей. "

если статья про компьютеры - она останется про них - иначе никак - то есть с интересами тут сложнее, куда интересней стиль изложения мыслей - более того, если вы собираетесь работать с шаблонами -то можно прямо при написании в среде подставлять готовые шаблоны - так как средства разработки от майкрософт сами предлагают подставить операторы - всё это восходит к текстовым "процессорам" вроде подобных - и анализу текстов - таких, которые скрыты ныне от глаз миллионов в проектах, которые как говорят предсказывают поведение финансовых рынков.....или сборы от показа фильмов - просто на анализу твиттов.....

то есть - уточню -
анализ текста (автоматический) - это намного сложнее , на мой взгляд ,чем его изменение - то есть лучше начинать с "процессора " , который проводит "замены" ?
При этом хочу заметить ,что "облагородить" текст куда сложнее, чем "шаблонизировать".......

........помогать и анализировать тексты в автоматическом режиме на наличие выделяющихся деталей изложения.

добавлю - "и заменять по воле автора"
собственно -

  1. каков план действий? (в общем смысле - как "вникать" в тему)
  2. предполагаемые к использованию технологии ?(сразу скажу. что приветствую основной функционал в виде dll - дабы его везде юзать)

да ещё один плюс - тема "общая" - то есть это не системное программирование, а значит , здесь может быть теоретически задействовано большее число людей -при этом абсолютная масштабируемость модульность и "наращиваемость" - то есть всё для того, чтобы "начать" и не увязнуть.

Но возможно я не правильно трактую саму задумку - так что прокомментируйте)

humanmashine's picture

Дело в том, что я просто поднял проблему. И потом предложил взяться за её решение. А каким это будет решение - это вопрос открытый.
Можно просто создать набор различных шаблонов. Можно создать словарь и методические рекомендации по стилю речи. Можно в итоге сделать программные продукты в этом помогающие. Но в основе всех решений, по моему видению, лежит некий набор рекомендаций и шаблонов. А разработка рекомендаций и шаблонов - это очень тяжёлая работа.

рекомендации и шаблоны - это скорее "внутренний " вопрос - то есть этакая техническая документация для разработки - да , конечно, она может быть опубликована- как этакие "тезисы проекта". Интерес же представляет собой текстовый редактор (модуль), с которого кстати и можно начать такой, который например позволяет писать в научном стиле - что-то типа Т9 но заточенного под определённый стиль речи. Что думаете? (1)

Плохая идея. При изменении текста теряется львиная доля его смысла. Особенно - если ты знаком с человеком очень близко. Конечно, если пренебречь этими потерями, то загнаться можно. Но целесообразность этого добра вызывает сомнения, по крайней мере на нашем уровне. Когда будем президентами каких-нибудь государств - тогда да, а сейчас это выглядит как параноя.

humanmashine's picture

Почему же? Да это немного параноидально, но для журналистов, к примеру, вполне актуально. Вот журналист связывается с каким-то тайным информатором посредством анонимных сетей, но нашли друг-друга они на общем форуме, и переписку оставляют открытой. В этом случае все могут и почитать - часто это хорошо, но все участники хотят остаться неизвестными, как сам журналист, который не будет высовываться пока сам всё не перепроверит и не выждет подходящий момент, так и информатор.

А существующие средства анализа текстов и вероятностные модели позволяют довольно точно строить вполне удачные системы основанные на функции правдоподобия.

Т.е. для тех кто не в курсе, мы на основе теории вероятности строим функцию, которая по набору данных - в нашем случае слов и характерных словосочетаний, просто анализирует кучу других текстов различных журналистов и смотрят какой журналист имеет наибольшее значение этой функции... ну и всё, далее его под колпак, а потом можно выяснить что он пользуется скажем I2P и всё, зажимаем его пока ничего не натворил.
На таком "наивном Бфйесовском" методе основаны некоторые рекомендательные системы: вот хорошая статья http://habrahabr.ru/company/surfingbird/... .

Как это делается понятно. Другой вопрос, что нужно это все такой маленькой горстке людей, что это все вызывает подозрения изначально. Поверь, если кому-то надо разузнать "кто"- разузнают, как не шифруйся (ну если ты хочешь осложнить жизнь им и себе - то пожалуйста)

humanmashine's picture

Эти рассуждения мне напоминают популярную фразу: "всё равно сдохнем, так что дёргаться". В том то и дело, что смысл обеспечения безопасности - это усложнить злоумышленнику задачу так, чтобы на её решение понадобилось слишком много ресурсов, и он либо их не имел бы в достаточном количестве, либо жалел бы потратить. А на счёт малого круга, даже малый круг - это уже беда - так легко заблудиться в трёх соснах))) Ну и тем более систему надо строить так, чтобы было трудно определить, а вообще человек пользуется ли этой системой? Да и стиль можно подстраивать под известные. Так что небольшая стая людей вполне сможет уютно пользоваться системой.