Выбор редакции
07 апреля, 16:11

[Из песочницы] Плоды изоляции: интерактивная карта COVID-19 с историческими графиками и миграционными ограничениям

Три недели назад мы с командой в Routitude переключились с наших привычных задач на создание сервиса для мониторинга распространения вируса COVID-19. За это время мы реализовали: дашборд с регулярно обновляющимися данными для всех стран (а также административных субъектов России и штатов США); интерактивную карту распространения инфекции; карту миграционных ограничений, введенных в связи с эпидемией; исторические графики развития эпидемии по каждой стране. Все это было добавлено к уже существующей информации по визовым ограничением, климатическим показателям и данным по авиаперелетам. Результат нашей работы можно посмотреть здесь: routitude.com/map/covid, а детали о том как все устроено — под катом. Читать дальше →

Выбор редакции
07 апреля, 14:59

Машинное обучение на языке R с использованием пакета mlr3

Источник: https://mlr3book.mlr-org.com/ Привет, Хабр! В этом сообщении мы рассмотрим самый продуманный на сегодняшний день подход к машинному обучению на языке R — пакет mlr3 и экосистему вокруг него. Данный подход основан на «нормальном» ООП с использованием R6-классов и на представлении всех операций с данными и моделями в виде графа вычислений. Это позволяет создавать упорядоченные и гибкие пайплайны для задач машинного обучения, но на первых порах может показаться сложным и запутанным. Ниже постараемся внести определенную ясность и замотивировать к использованию mlr3 в ваших проектах. Содержание: Немного истории и сравнение с конкурирующими решениями Технические детали: R6-классы и пакет data.table Основные составляющие ML-пайплайна в mlr3 Настройка гиперпараметров Обзор экосистемы mlr3 Пайпы и граф вычислений Читать дальше →

Выбор редакции
07 апреля, 12:46

[Перевод] Deep Q Trading: объектно-ориентированный код на R

Привет! Это перевод еще одной моей статьи, посвященной обучению с подкреплением (reinforcement learning). Эту итерацию даже предложили запостить в блоге Веды аналитики. :) В двух прошлых статьях на эту тему: 1 и 2 я пробовал создать и запустить обучение с подкреплением для задачи трейдинга на синтетических и реальных данных. Тогда я опубликовал код нейронной сети, чтобы помочь вам начать ваши проекты. На этот раз я публикую весь код эксперимента, который я создал, используя язык для анализа данных R, обогащенный классами R6, чтобы упростить погружение в эту тему. Даже если ваше ежедневное программирование связано с использованием Python, Java или C, вы, вероятно, найдете ООП R6 довольно удобным. Надеюсь, вам понравится высокоуровневость кода. Заходите на мой репозиторий кода, клонируйте и запустите его! Читать дальше →

Выбор редакции
05 апреля, 19:50

Когда пандемия пойдёт на спад? Оцениваем на Python с помощью Pandas

  • 0

Всем привет. Видел несколько дашбордов по COVID-19, но не нашёл пока главного — прогноза времени спада эпидемии. Поэтому написал небольшой скрипт на Python. Он забирает данные из таблиц ВОЗ на Github'е, раскладывает по странам, строит линии тренда. И по ним делает прогнозы — когда в каждой стране из ТОП 20 по количеству заболевших COVID-19 можно ожидать спада заражений. Писал на скорую руку, так что не обессудьте. Если интересуют результаты — добро пожаловать под cut. Читать дальше →

Выбор редакции
04 апреля, 21:12

Конкурс VK Сup. Трек ML. 4 место. Как?

В данном конкурсе, проводимом в рамках отборочного тура VK Сup 2020, трек ML, необходимо было предсказать долю потенциальной аудитории, которая просмотрит рекламные объявления, показываемые на нескольких рекламных площадках конкретное число раз: 1,2,3 еще и в будущем. Это было не классическое соревнование по отправке итоговых предсказаний на известные тестовые данные, а предсказание на полностью неизвестных данных, подаваемых на работающую модель в докер образе, запущенном на площадке конкурса. В целом, такое решение уравнивает шансы участников и не позволяет тем, кто любит подглядывать в тест, обогащать им тренировочный набор данных, подгонять модель под распределение тестовых данных. Здесь все были в равных условиях, так как не понятно, что может быть в данных: “мусорные” данные, спорадические выбросы, неверные разделители и прочее. Но все эти нюансы одновременно заставляют думать и об обработке исключений. В этом конкурсе я занял непочетное 4 место и хочу рассказать, как же это удалось. Читать дальше →

Выбор редакции
04 апреля, 16:47

Реверс API по его android приложению

Зачем У меня есть pet-project, приложение для учета финансов. На мой взгляд, одной из ключевых проблем подобных приложений является ручной ввод баланса. У банков есть информация о транзакциях которые я совершаю и даже есть неплохая аналитика. Но Банков несколько и они ничего не знают друг про друга. В итоге Нет единой аналитики Перевод денег из одного банка в другой будет считаться как списание с одной стороны и зачисление с другой. Эта особенность портит аналитику. Возможность работать с данными позволяет строить любую аналитику и прогнозы в отличие от ui банка Читать дальше →

Выбор редакции
31 марта, 09:46

[Перевод] Разворачиваем вложенные столбцы — списки с помощью языка R (пакет tidyr)

В большинстве случаев при работе с ответом полученным от API, или с любыми другими данными которые имеют сложную древовидную структуру, вы сталкиваетесь с форматами JSON и XML. Эти форматы имеют множество преимуществ: они достаточно компактно хранят данные и позволяют избежать излишнего дублирования информации. Минусом данных форматов является сложность их обработки и анализа. Неструктурированные данные невозможно использовать в вычислениях и нельзя строить на их основе визуализацию. Данная статья является логическим продолжением публикации "R пакет tidyr и его новые функции pivot_longer и pivot_wider". Она поможет вам привести неструктурированные конструкции данных к привычному, и пригодному для анализа табличному виду с помощью пакета tidyr, входящего в ядро библиотеки tidyverse, и его функций семейства unnest_*(). Читать дальше →

Выбор редакции
30 марта, 11:29

Распространение сферического коня в вакууме по территории РФ

Привет от ODS. Мы откликнулись на идею tutu.ru поработать с их датасетом пассажиропотока РФ. И если в посте Milfgard огромная таблица выводов и научпоп, то мы хотим рассказать что под капотом. Что, опять очередной пост про COVID-19? Да, но нет. Нам это было интересно именно с точки зрения математических методов и работы с интересным набором данных. Прежде, чем вы увидите под катом красивые картинки и графики, я обязан сказать несколько вещей: любое моделирование — это очень сложный процесс, внутри которого невероятное количество ЕСЛИ и ПРЕДПОЛОЖИМ. Мы о них расскажем. те, кто работал над этой статьей — не эпидемиологи или вирусологи. Мы просто группа любителей теории графов, практикующих методы моделирования сложных систем. Забавно, но именно в биоинформатике сейчас происходит наиболее существенный прогресс этой узкой области математики. Поэтому мы понимаем язык биологов, хоть и не умеем правильно обосновывать эпидемиологические модели и делать медицинские заключения. наша симуляция всего лишь распространение сферического коня в вакууме по территории РФ. Не стоит относиться к этому серьезно, но стоит задуматься об общей картине. Она определенно интересная. эта статья не существовала бы без датасета tutu.ru, за что им огромное спасибо. мы хотим пригласить других заинтересованных исследователей в ODS.ai и под инициативой ML for Social Good (канал #ml4sg в ODS) вместе улучшать эту модель, чтобы получить опыт и возможность применять ее в будущем. Все интересные задачи, которые мы еще не решили, будут помечены в статье как TODO. Под катом — результаты нашего марш-броска на датасет. Читать дальше →

Выбор редакции
30 марта, 09:54

Сценарии заражения в конкретных городах на основе датасета передвижения людей по России

Статистика для Москвы в сценарии «люди стараются сидеть по домам, нет авиасообщения» — к ноябрю модель показывает 5 миллионов переболевших. Это ограниченный прогноз на основе неполных данных, ниже будут детали. За ноль принято 22 марта. В мире было создано несколько моделей распространения инфекции, но ни одна не подходила нормально для России, либо опиралась на плотность населения без правильного графа перемещений людей. Почему? Потому что либо он получается так сложно, что вы окосеете его согласовывать, либо ни у кого в одном месте этого датасета просто нет. Кроме нас. Туту.ру с радостью делится данными с журналистами уже 16 лет (огромная часть новостей в духе «Заметен аномальный спрос на Анталию» — это нарезка наших информационных витрин). Но мы исторически никогда не раскрывали сами данные по перемещениям людей целыми блоками. Мы собрали датасет передвижений людей по России за апрель 2019 и передали его в сообщество Open Data Science. Если вы их не знаете — это объединение преимущественно русских дата-сайнтистов (но со всего мира), которое перерабатывает открытые данные на полезные модели. Некоммерчески. Ниже выводы, таблица с прогнозом по каждому крупному городу, сам датасет (если вы хотите попробовать с ним что-то сделать). Про то, как работает модель и какая математика и ограничения лежат внутри, расскажет ODS через пару часов. И выложит исходники. UPD: вот. Читать дальше →

Выбор редакции
28 марта, 12:16

Парсинг фотографий с сайта cian.ru с помощью Selenium

Здравствуйте дорогие хабровчане, в этом небольшом примере я хочу показать как можно распарсить страницу, данные на которую подгружаются с помощью javascript виджетов. Более того, даже если страницу в этом примере просто сохранить, то всё равно не получится спарсить из неё все нужные фотографии из-за этих виджетов. В данном случае я использую для примера сайт cian.ru, у которого есть свой api, который я использовать не буду, вместо этого я буду использовать Selenium. Я не работаю в cian.ru, просто использую этот сайт для примера. Код в парсере простой и расчитан на начинающих. Читать дальше →

Выбор редакции
27 марта, 23:12

[Из песочницы] Мой дашборд и анализ динамики распространения инфекции COVID-19

Хочу поделиться своим дашбордом и анализом динамики распространения инфекции. Дашборд написан на Google Таблицах и Google Apps Script. Читать дальше →

Выбор редакции
27 марта, 17:54

Как мы кратно улучшили качество рекомендаций в оффлайн ритейле

Всем привет! Меня зовут Саша, я CTO & Co-Founder в LoyaltyLab. Два года назад я с друзьями, как и все бедные студенты, ходил вечером за пивом в ближайший магазин у дома. Нас очень расстраивало, что ритейлер, зная, что мы придём за пивом, не предлагает скидку на чипсы или сухарики, хотя это так логично! Мы не поняли, почему такая ситуация происходит и решили сделать свою компанию. Ну и как бонус выписывать себе скидки каждую пятницу на те самые чипсы. И дошло всё до того, что с материалом по технической стороне продукта я выступаю на NVIDIA GTC. Мы рады делиться наработками с коммьюнити, поэтому я выкладываю свой доклад в виде статьи. Читать дальше →

Выбор редакции
26 марта, 13:29

COVID-19 Telegram-бот // Отвечаем на FAQ вопросы автоматически

В контексте всеобщего хайпа на Коронавирусе, я решил сделать хоть что-нибудь полезное (но не менее хайповое). В данной статье я расскажу о том, как за 2.5 часа (именно столько у меня ушло) создать и развернуть Telegram Бота с использованием Rule-Based NLP методов, отвечающего на FAQ-вопросы на примере с кейсом COVID-19. В ходе работы, мы будем использовать старый добрый Python, Telegram API, пару стандартных NLP-библиотек, а также Docker. Читать дальше →

Выбор редакции
25 марта, 13:30

[Перевод] Структурирование рисков и решений при использовании BigData для получения официальной статистики

Предисловие переводчика Материал заинтересовал меня, в первую очередь из-за таблицы ниже: С учетом того, что статистики (а российские, на генетическом уровне), мягко говоря, не любят все, что отличается от линейной зависимости, эти парни умудрились протащить использование функции активации в параболическом виде для определения степени риска использования BigData в официальной статистике. Молодцы. Естественно, статистики добавили свое примечание к этой работе – «1 Любые ошибки и упущения являются исключительной ответственностью авторов. Мнения, выраженные в этом документе, являются личными и не обязательно отражают официальную позицию Европейской комиссии». Но работу опубликовали. Думаю, на сегодня, этого достаточно, и они (авторы) никому не запрещали находить свои шкалы в этих аспектах. В работе достаточно структурировано можно разделить, где и каким образом статистические методы отличаются от методов исследования для BigData. На мой взгляд, самая большая польза от этой работы будет при разговоре с заказчиком и для опровержения его высказываний типа: — А мы собираем сами статистику, что Вы тут еще хотите исследовать? — А вы нам свои результаты представьте так, чтобы мы их со своей статистикой согласовали. В этом вопросе авторы говорят, что неплохо бы почитать эту работу (3 How big is Big Data? Exploring the role of Big Data in Official Statistics) В данной работе авторы проставили свое виденье уровня риска. Этот параметр стоит в скобках, не путать со ссылкой на источники. Второе наблюдение. Авторы используют термин BDS – это аналог понятия BigData. (видимо реверанс официальной статистике). Читать дальше →

Выбор редакции
25 марта, 07:14

Кто, как и на чем исследовал мировой океан — разбираем базы NOAA

Приветствую вас, глубокоуважаемые! «Выбросило меня тогда из кабины, в тысячный раз подумал он. Ударило обо что-то головой, так я больше и не оправился…» (С) АБС, «Улитка на склоне» Пока коронaвирус бороздит просторы планеты, предлагаю с одного ракурса взглянуть, как мы (человечество) исследовали мировой океан. По долгу работы мне нужны данные по температуре и солености воды с максимальным покрытием по территории, и единственное известное мне место, где такие данные можно взять совершенно свободно — базы данных Национального управления океанических и атмосферных исследований США. В этот раз я ради интереса решил не ограничиваться необходимым и проявил определенную жадность. Кто, как, когда и на чем исследовал мировой океан: список экспедиций с 1772 по 2018 годы с разбивкой по странам, интересные подробности и небольшой статистический анализ — под катом! Читать дальше →

Выбор редакции
24 марта, 19:38

Смертность, летальность, коронавирус и матан

Для начала, давайте разберемся с двумя важнейшими эпидемиологическими понятиями: смертностью и летальностью. Сразу оговорюсь, что в википедии (как русской, так и английской) приведено ошибочное определение летальности, которое сбивает с толку. Летальность — это вероятность умереть, если у пациента диагностирована болезнь. Вот цитата из научной статьи: one of the most important epidemiologic quantities to be determined is the case fatality ratio—the proportion of cases who eventually die from the disease. Смертность — это отношение числа умерших от болезни к размеру популяции за какой-то промежуток времени. Обычно, считают сколько смертей на 100 тыс. населения за единицу времени. Смертность непосредственно связана с летальностью: это произведение вероятности заболеть (за определенный временной период) на летальность. В самом деле, для того, чтобы умереть от болезни надо сначала ей заразиться, а потом уж, если не повезет… Читать дальше →

Выбор редакции
24 марта, 15:48

[Из песочницы] Web2Text: глубокое структурированное извлечение содержимого web-страницы

Привет, Хабр! Представляю вашему вниманию перевод статьи "Web2Text: Deep Structured Boilerplate Removal" коллектива авторов Thijs Vogels, Octavian-Eugen Ganea и Carsten Eickhof. Веб-страницы являются ценным источником информации для многих задач обработки естественного языка и поиска информации. Эффективное извлечение основного содержимого из этих документов имеет важное значение для производительности производных приложений. Чтобы решить эту проблему, мы представляем новую модель, которая выполняет классификацию и маркировку текстовых блоков на странице HTML как шаблонных блоков, или блоков содержащих основной контент. Наш метод использует Скрытую Марковскую модель поверх потенциалов, полученных из признаков объектной модели HTML-документа (Document Object Model, DOM) с использованием сверточных нейронных сетей (Convolutional Neural Network, CNN). Предложенный метод качественно повышает производительность для извлечения текстовых данных из веб-страниц. Читать дальше →

Выбор редакции
24 марта, 11:03

Рынок аудиторных данных сегмента Интернет-рекламы и маркетинга. Часть. 1. Изменения законодательства

Данные сейчас в моде, но рынок данных только зарождается: нет общей терминологии, не зафиксировалась структура рынка данных и больших данных, аналитики. В любом случае, данные – важнейший актив и понятие, прочно вошедшее в нашу жизнь. Они используются во всех сферах бизнеса и индустриях, новые примеры использования появляются каждый день. Наша компания CleverDATA и Ассоциация развития финансовых технологий подготовили обзор рынка аудиторных данных в сегменте интернет-рекламы и маркетинга за 2019 год. Сейчас в этом сегменте ощущается очень сильный недостаток объективной информации и статистических данных о текущем положении вещей и динамике, поэтому мы решили поделиться результатами нашей работы с читателями Хабра.  В этой статье мы расскажем, как изменилось законодательство в сфере аудиторных данных в России и за рубежом, а во второй ее части — представим статистику рынка. Источник Читать дальше →

Выбор редакции
23 марта, 13:29

[Перевод] Анализ скорости распространения COVID-19 и публикация результатов на dstack.ai

Предисловие переводчика Всем привет, давно ничего не писал на Хабр, но тут появился отличным повод. Я довольно много лет проработал в области анализа данных и самая важная вещь, которую я понял за это время — в анализе данных очень не хватает инструментов, самых разных инструментов. Меня беспокоило несколько вещей, одна из которых — это трудность, с которой сталкивается специалист по анализу данных при попытке поделиться результатами своей работы с менеджером или даже коллегой по “цеху”. Обычно здесь идут в ход любые подручные средства, email, IM, dropbox и т.д. Мы с Андреем и еще одним нашим другом решили попытаться сделать что-то осмысленное в этой области и сегодня я хочу рассказать вам о том, что же у нас получилось. В ситуации, в которой мы все оказались из-за вируса COVID-19 проблемы публикации и обсуждения результатов исследований стала пожалуй еще более актуальна чем когда бы то ни было раньше. Итак, меня зовут Виталий, среди прочего я сооснователь dstack.ai и представляю вам перевод текста, который написал Андрей несколько дней назад. Он рассчитан скорее на начинающих, но даже продвинутые специалисты по анализу данных, особенно те, кто интересуются инструментами визуализации могут найти здесь кое что интересное, что может помочь им в повседневной работе. Для того, чтобы быть совсем честным, код всех примеров написал я, так можно писать прямо мне на vitaly at dstack.ai. Читать дальше →

22 марта, 18:09

[Из песочницы] Оракул, скажи, кем я быть хочу

Здравствуйте, читатели. Я хочу вам представить небольшое исследование, которые провели мы с моим другом полтора года назад, но в виду некоторых обстоятельств оформление затянулось до сего момента. Вопрос, который мы хотели рассмотреть, это можно ли построить такой классификатор, который помог бы молодым людям с выбором профессии. TL;DR Провели опрос трех психологических тестов: Большая пятерка, эмоциональный интеллект, тест на профессию. Задали вопрос кем работают, нравится ли работа. Провели небольшой EDA. На базе тестов построили несколько классификаторов и лучший сравнили с тестом на профессию, ответы которого учитывались с нюансом. Датасет выложили в открытом доступе. Читать дальше →

07 июня 2017, 11:18

7 самых дорогих стартапов США

За последние несколько лет мы наблюдаем рост частных компаний стоимостью свыше миллиарда долларов – так называемые "единороги".

06 декабря 2016, 23:09

Глобальный мировой заговор управляется из Кембриджа

До нас в ЖЖ еще не добрались Великие Манипуляторы общественным мнением, уже перевернувшие и продолжающие переворачивать мировые общественные отношения, поэтому мы можем спокойно и независимо прозябать здесь дальше, но точно знать, что, кто и как устроил переворот в нашем социально сетевом мире.Далее выдержки из расследования Das Magazin о том, как Big Data и пара ученых обеспечили победу Трампу и BrexitТехнологии персонализированной рекламы в сети Facebook повлияли на итоги выборов в США и референдума о выходе Великобритании из ЕС.[об этом говорили и писали многократно -- теперь подобрались к этой теме с адресами-паролями-явками]Новейшие технологии стали универсальным оружием, которое переходит из хороших рук в плохие, но чаще из плохих в плохие.Итак, за победой Трампа и Brexit стоят конкретные люди и фирмы.[возможно, сейчас всё это специально выносят на обсуждение, чтобы указать на искусственный (сфабрикованный) характер победы Трампа и Brexit -- и дать как минимум "моральное право" начать Новый крестовый поход]Итак, фамилии:-- Михал Козинский (обеляют)-- Александр Никс -- глава компании Cambridge Analytica (подставляют))Именно они создавали всё новые и новые подходы к работе с Big Data, прежде всего, в Фейсбуке,а также с другими данными, которые оставляют цифровые следы:-- покупками по кредитке,-- запросами в Google,-- прогулками со смартфоном в кармане,-- каждым лайком в соцсети...Началось всё в британском Кембриджском университете [где же еще?] на кафедре психометрии Козинского.Психометрия (иногда называют психографией) представляет собой попытку измерить человеческую личность.В 1980-е годы два психолога доказали, что каждая черта характера может быть измерена при помощи пяти измерений -- т.н. «большой пятерки»:-- открытость (насколько вы готовы к новому?),-- добросовестность (насколько вы перфекционист?),-- экстраверсия (как вы относитесь к социуму?),-- доброжелательность (насколько вы дружелюбны и готовы к сотрудничеству?)-- и нейротизм (насколько легко вас вывести из себя?).На основе этих измерений можно точно понимать, с каким человеком имеешь дело, в чем его желания и страхи, наконец, как он себя может вести.Проблема была в сборе данных: чтобы что-то понять о человеке, от него требовалось заполнить огромный опросник.Но потом появился интернет, затем Facebook, затем Козинский.Далее идет большая часть, как Козинский сотоварищи собирали и анализировали данные.На кафедре несколько лет собирали анкеты множества испытуемых (проводилась серия различных меняющихся он-лайн тестов).Главное было научиться соизмерять личные ценности испытуемых, а также его пол, возраст и место жительства -- с лайками и репостами в Facebook.Исследователи полагают, что научились это делать.Сразу к выводам группы Козинского:-- анализа 68 лайков в Facebook достаточно, чтобы определить цвет кожи испытуемого (с 95% вероятностью),-- его гомосексуальность (88% вероятности)-- приверженность Демократической или Республиканской партии (85% вероятности)Модель начали совершенствовать с 2012 года.В неё добавили опции установления по Фейсбук:-- интеллектуального развития-- религиозных предпочтений-- пристрастия к алкоголю, курению или наркотикам...-- развелись ли родители испытуемого до его совершеннолетия или нет.Модель смогла лучше чем коллеги по работе стала узнавать личность после десяти изученных лайков.После 70 лайков — лучше, чем друг.После 150 лайков — лучше, чем родители.После 300 лайков — лучше, чем партнер.А дальше утверждается, что можно узнать о человеке лучше, чем он сам.В день, когда Козинский опубликовал статью о своей модели, он получил два звонка: жалобу и предложение работы.Оба звонка были из компании Facebook.Козинский и в Facebook продолжил свои исследования.Козинский и команда могут оценивать людейпо Большой пятерке критериевисходя из их юзерпика, фотографии в соцсетяхпо числу друзейпо различным личным данным -- вплоть до данных датчика движения в смартфоне (размахиваем ли мы рукой с ним... как далеко ездим (коррелирует с эмоциональной нестабильностью).Смартфон сам по себе огромный психологический опросник, который мы вольно или невольно заполняем.На основе данных можно не только создавать психологический портрет, но искать среди этих портретов нужные.Например, обеспокоенные папаши, озлобленные интроверты, не определившиеся с выбором -- это сторонники демократов.Козинский изобрел поисковую систему по людям.Он стал ставить предупреждения на всех своих научных публикациях о том, что его методы «могут нести угрозу благополучию, свободе или даже жизни людей».В начале 2014 года, к Козинскому обратился молодой ассистент профессора по имени Александр Коган [не родственник ли мужа В.Нуланд?]У него был запрос от некой фирмы, заинтересованной в методе Козинского.Предложение состояло в том, чтобы проанализировать путем психометрии 10 млн американских пользователей Facebook.С какой целью, собеседник не сказал из соображений конфиденциальности.Козинский сначала согласился, ведь речь идет о больших суммах в пользу его института, но потом начал медлить с согласием.В итоге, он выжал из Когана название фирмы: SCL, Strategic Communications Laboratories («Лаборатории стратегических коммуникаций»).Сайт фирмы предлагает маркетинг на основе психологии и логики, но ставит фокус на влиянии на исход выборов: «Мы являемся глобальной компанией по управлению предвыборными кампаниями».За SCL стоит сложная корпоративная система, завязанная на «налоговых гаванях».Позднее это было показано в «Панамских документах» и разоблачениях Wikileaks [вот эти компании зря немцы сюда воткнули -- захотели вызвать у читателей кумлятивный эффект].Часть этой системыответственна за кризисы в развивающихся странах,другая помогала НАТО разрабатывать методы психологической манипуляции гражданами Афганистана,Одна из дочерних компаний SCL — та самая Cambridge Analytica -- как раз та маленькая фирма, организовавшая интернет-кампании в поддержку Brexit и Трампа.Das Magazin предполагает, что SCL получила данные о методе Козинского именно из рук Когана (тот мог скопировать или выстроить заново его систему, чтобы затем продать ее политтехнологам из SCL).Козинский незамедлительно разрывает связь с Коганом и информирует о ситуации своего институтского начальника [информатора Козинского вывели из-под удара]. Далее совсем детектив:Коган переезжает в Сингапур, женится и называет себя доктором Спектром.Козинский переезжает в Штаты, в Стэнфорд.А в ноябре 2015 года лидер радикальных сторонников Brexit Найджел Фарадж объявил, что его сайт подключает к работе со своей интернет-кампанией некую компанию, специализирующуюся на Big Data, а именно, Cambridge Analytica.Ключевая компетенция фирмы: политический маркетинг нового типа — так называемый «микротаргетинг» — основанный на «методе океана».Козинский начинает получать множество писем — учитывая слова «Кембридж», «океан» и «аналитика», многие думают, что он как-то с этим связан.Однако только тогда он сам узнает о существовании такой компании.Он просматривает сайт фирмы и выясняет, что его методология используется в большой политической игре.В июле 2016 году, уже после референдума по Brexit, на его голову начинают обрушиваться проклятия.Каждый раз Козинскому приходится оправдываться и доказывать, что к той фирме он не имеет никакого отношения.Прошло десять месяцев.19 сентября 2016 год в нью-йоркском отеле Grand Hyatt проходит ежегодный саммит Concordia, мировой экономический форум в миниатюре.Участвует действующий президент Швейцарии Йоханн Шнайдер-Амманн и другие сильные мира .Перед собравшимися выступает Александр Никс -- директора Cambridge Analytica.Многие уже знают, что перед ними новый digital-специалист Трампа.«Скоро вы будете называть меня Мистер Brexit», — таинственно написал Трамп в своем Twitter несколькими неделями ранее.Действительно, политологи уже писали тогда о сходстве программ у Трампа и у сторонников выхода Великобритании из ЕС.И лишь немногие знали о связи Трампа с малоизвестной Cambridge Analytica.До тех пор digital-кампания Трампа состояла более-менее из одного человека: Брэда Парскейла.Маркетинговый энтузиаст и основатель одного провалившегося стартапа, он создал для Трампа простенький веб-сайт за $1500.70-летнего Трампа едва ли можно назвать человеком цифровой эпохи: на его рабочем столе даже компьютера нет.Как однажды поведала его персональная ассистентка, нет даже такого явления, как электронное письмо от Трампа.Сама ассистентка приучила его к смартфону.Хиллари Клинтон, напротив, опиралась на наследие Барака Обамы как первого «президента соцсетей».У нее были адресные листы Демократической партии, миллионы подписчиков, поддержка Google и Dreamworks.Когда в июне 2016 года Трамп нанял Cambridge Analytica, многие в Вашингтоне скорчили мину.Иностранные чуваки в костюмах, которые ничего в этой стране не понимают...«Это честь для меня, уважаемые дамы и господа, рассказывать вам сейчас о силе Big Data и психометрии в избирательной кампании», — говорил на саммите Никс.«Еще пару месяцев назад Тед Круз был одним из наименее одобряемых кандидатов.Всего 40% электората знали его имя».Все присутствовавш ие помнили историю стремительного взлета сенатора-консерватора Круза, едва ли не самое необъяснимое событие предвыборной гонки.Последний из серьезных оппонентов Трампа внутри Республиканской партии буквально выскочил из ниоткуда.«Ну и как же так произошло?» — вопрошал Никс.В конце 2014 года Ccambridge Analytica вошла в предвыборную кампанию в США именно как советник Теда Круза, которого финансировал миллиардер Роберт Мерсер.До тех пор, утверждал Никс, предвыборные кампании велись по демографическим критериям:«Глупейшая идея, если всерьез об этом подумать: все женщины получают одинаковый месседж, потому что они одного пола, все афроамериканцы получают другой посыл, исходя из их расы». Таким дилетантским способом (и тут даже Никсу можно ничего не добавлять) вела кампанию команда Клинтон: разделить общество на формально гомогенные группы, подсказанные социологами.Теми самыми, что до самого конца отдавали ей победу.И тут Никс щелкает на другой слайд: пять лиц, каждое соответствует определенному профилю личности, Большая пятерка измерений.«Мы в Cambridge Analytica разработали модель, которая позволит высчитать личность каждого совершеннолетнего гражданина США», — продолжает Никс.Маркетинговый успех Cambridge Analytica основан на трех китах.Это психологический поведенческий анализ, основанный на «модели океана», изучение Big Data и таргетированная реклама.Последнее означает персонализированную рекламу, а также такую рекламу, которая максимально близко подстраивается под характер отдельного потребителя.Никс искренне объясняет, как его компания этим занимается (лекция доступна на YouTube).Его фирма закупает персональные данные из всех возможных источников: кадастровые списки, бонусные программы, телефонные справочники, клубные карты, газетные подписки, медицинские данные.В США возможно купить почти любые персональные данные.Если вы хотите узнать, допустим, где живут женщины-еврейки, можно спокойно купить базу данных.Затем Cambridge Analytica скрещивает эти данные со списками зарегистрированных сторонников Республиканской партии и данными по лайкам-репостам в Facebook — вот и получается личный профиль по «методу океана». Из цифровых данных вдруг возникают люди со страхами, стремлениями и интересами — и с адресами проживания.Процедура идентична разработанной Козинским модели.Cambridge Analytica также использует IQ-тесты и прочие небольшие приложения, чтобы получать осмысленные лайки от пользователей Facebook.И компания Никса делает то, от чего предостерегал Козинский: «У нас есть психограммы всех совершеннолетних американцев, это 220 млн человек. Наш контрольный центр выглядит так, прошу внимания», — говорит Никс, щелкая слайды.Появляется карта Айовы, где Тед Круз собрал неожиданно большое число голосов на праймериз.На карте видны сотни тысяч маленьких точек: красные и синие, по партийным цветам.Никс выстраивает критерии. Республиканцы — и синие точки исчезают. Еще не определились с выбором — точек становится меньше.Мужчины — еще меньше, и так далее.В итоге, появляется имя одного человека: с возрастом, адресом, интересами, политическими предпочтениями.Но как Cambridge Analytica обрабатывает отдельных людей своим месседжем?В другой презентации Никс рассказал, как на примере закона о свободном распространении оружия: «Для боязливых людей с высоким уровнем нейротизма мы представляем оружие как источник безопасности. Вот, на левой картинке изображена рука взломщика, который разбивает окно. А на правой картинке мы видим мужчину с сыном, которые идут по полю с винтовками навстречу закату. Очевидно, утиная охота. Эта картинка для богатых консерваторов-экстравертов».Противоречивая натура Трампа, его беспринципность и исходящая из этого целая прорва различных сообщений внезапно сыграла ему на руку: для каждого отдельного избирателя свой месседж.«Трамп действует как идеальный оппортунистский алгоритм, который опирается лишь на реакцию публики», — отмечала в августе математик Кэти О’Нил.В день третьих дебатов между Трампом и Клинтон команда Трампа отправила в соцсети (преимущественно, Facebook) свыше 175 тыс. различных вариаций посланий.Они различались лишь в мельчайших деталях, чтобы максимально точно психологически подстроиться под конкретных получателей информации: заголовки и подзаголовки, фоновые цвета, использование фото или видео в посте.Филигранность исполнения позволяет сообщениям находить отклик у мельчайших групп населения, пояснил Das Magazin сам Никс: «Таким способом мы можем дотянуться до нужных деревень, кварталов или домов, даже до конкретных людей».В квартале Маленький Гаити в Майами была запущена информация об отказе Фонда Клинтон участвовать в ликвидации последствий землетрясения в Гаити — чтобы разубедить жителей отдавать свои голоса Клинтон.Это было еще одной целью: удержать электорат Клинтон (например, сомневающихся леваков, афроамериканцев и молодых девушек) от урны для голосования, «подавлять» их выбор, по выражению одного из сотрудников Трампа. Использовались и так называемые «темные посты» Facebook: платные объявления посреди ленты новостей, которые могли попадаться только определенным группам лиц. Например, афроамериканцам показывали посты с видео, на котором Клинтон сравнивала чернокожих мужчин с хищниками.Хиллари Клинтон оказалась одной из жертв антирекламы Cambridge Analytica«Мои дети не смогут больше объяснить, что значит рекламный плакат с одинаковым сообщением для всех и каждого», — завершает Никс свое выступление на саммите Concordia, благодарит за внимание и спускается со сцены.Насколько американское общество в данную конкретную минуту обрабатывается специалистами Трампа, сказать трудно, ведь они крайне редко атакуют на центральных телеканалах, а чаще всего используют социальные сети и цифровое ТВ. И пока команда Клинтон, работавшая по лекалам социологов, пребывает в летаргии, в Сан-Антонио, где располагается «цифровой штаб» Трампа, возникает, по словам корреспондента Bloomberg Саши Иссенберга, «вторая штаб-квартира». Всего дюжина сотрудников Cambridge Analytica получила от Трампа в июле $100 тыс., в августе еще $250 тыс., в сентябре еще $5 млн. По подсчетам Никса, общая сумма оплаты услуг составила $15 млн.Но и проводимые мероприятия тоже радикальны: с июля 2016 года волонтеры кампании Трампа получили приложение, которое подсказывает политические предпочтения и личностные типы жителей того или иного дома. Соответственно, волонтеры-агитаторы модифицировали свой разговор с жителями исходя из этих данных. Обратную реакцию волонтеры записывали в это же приложение — и данные отправлялись прямиком в аналитический центр Cambridge Analytica.Фирма выделяет у американских граждан 32 психотипа, сконцентрировавшись лишь на 17 штатах. И как Козинский выяснил, что мужчины-поконники косметики MAC скорее всего являются гомосексуалами, в Cambridge Analytica доказали, что приверженцы американского автопрома однозначно являются потенциальными сторонниками Трампа. Помимо прочего, подобные открытия помогли самому Трампу понять, какие послания где лучше всего применять. Решение предвыборного штаба сконцентрироваться в последние недели на Мичигане и Висконсине было принято на основе анализа данных. Кандидат стал моделью применения системы.Но насколько велико было влияние психометрии на результат выборов?Cambridge Analytica не спешит предъявлять доказательства успешности своей кампании.Вполне возможно, что это вообще вопрос без ответа.Хотя вот, есть один факт: благодаря поддержке Cambridge Analytica Тед Круз превратился из ничего в серьезнейшего конкурента Трампа на праймериз.Вот рост голосов сельских жителей.Вот сокращение электоральной активности афроамериканцев.Даже тот факт, что Трамп потратил на проект так мало денег, может говорить об эффективности персонализированного продвижения. И даже то, что он пустил три четверти рекламного бюджета в цифровую сферу. Facebook превратился в совершенное оружие и лучшего помощника на выборах, как написал в Twitter один из сподвижников Трампа. К слову, в Германии антиэлитарная «Альтернатива для Германии» имеет в Facebook больше подписчиков, чем ведущие партии ХДС и СДПГ вместе взятые.Кроме того, ни в коей мере нельзя утверждать, что социологи, статистики, проиграли выборы, потому что сильно ошиблись со своими прогнозами. Верно обратное: статистики выиграли, но лишь те, что использовали новейшие методы. Шутка истории: Трамп постоянно критиковал эту науку, но выиграл во многом благодаря ней.Второй победитель — компания Cambridge Analytica. Издатель главного консервативного рупора Breitbart Стив Бэннон входит также в совет директоров этой фирмы. Недавно он был назначен старшим стратегом в команде Трампа. Марион Марешаль Ле Пен, активистка французского «Национального фронта» и племянница лидера партии, уже радостно сообщила о сотрудничестве с компанией, на внутреннем корпоративном видео которой изображено совещание по теме «Италия». По словам Никса, сейчас им заинтересованы клиенты со всего мира. Уже были запросы на сотрудничество из Швейцарии и Германии.тыцМари Ле Пен хочет стать следующим клиентом Cambridge Analytica«Нет, — говорит Козинский. — Тут нет моей вины. Это не я соорудил бомбу, я лишь показал, что они существуют».

06 июля 2016, 13:17

Поисковые системы: Google vs Яндекс

Гости Игорь Ашманов, управляющий партнёр компании «Ашманов и партнёры», Сергей Панков, генеральный директор Ingate Digital Agency, Дмитрий Завалишин, основатель и генеральный директор DZ Systems Подпишитесь на канал РБК: http://www.youtube.com/user/tvrbcnews?sub_confirmation=1 ------------------------ Получайте новости РБК в социальных сетях: Facebook: https://www.facebook.com/rbc.ru Twitter: https://twitter.com/ru_rbc ВКонтакте: https://vk.com/rbc Одноклассники: http://ok.ru/rbc

14 октября 2015, 12:01

На пути к победе в информационной войне

Р.Смирнов в заметке "Коллективное несознательное" приводит примеры топорной работы зарубежного информационного интернационала, которые дают надежду на нашу победу в информационной войнеМногие спрашивают типа, а почему такие тексты забористые.  Отвечаю - сбиваю прицел мозговым дронам ).У нас в России есть одна конторка с офисом на самой дорогой улице мира в домике под номером десять.Вот какой мозговой БПЛА у них есть для публики:PL Platform - Уникальная распределенная платформа сбора, многофакторного анализа и хранения больших массивов данных соцмедиа и онлайн-СМИ. В настоящий момент по социальным медиа идет сбор на русском и еще нескольких языках, возможно масштабирование по языкам. По онлайн-СМИ сбор идет на любых языках.PL Platform хранит архив свыше 20 млрд. сообщений (с 2012 года), ежедневные поступления – около 50 млн. сообщений в сутки.или можете ознакомиться с презентацией относительно старых проектов.http://www.dialog-21.ru/adx/aspx/adxGetMedia.aspx?DocID=2244451e-1bb8-4240-892a-9f5030fe51f6Вот еще их продукт - http://eurekaengine.ru/demo - осуществляющий автоматическое определение отношения текста к любым понятиям.Непрерывно сканируют все социальные сети, форумы, блоги и т.д. на предмет "отношений" т.е. пословица про слово воробей стала как нельзя достоверной.По большому счету это так игрушки.  Если Вы думаете, что не анализируется все, вплоть до распознанных разговоров по мобильному и сообщений, то серьезно ошибаетесь.У взрослых дядь, по образцу которых она делалась - тема уже лет 20 как поставлена на поток, не только для спецуры, но даже и для обычных интересующихся доступы к "коллективному бессознательному" продаются. Юнг обзавидуется.Вот например официальный партнер фейсбука продающий "ключи" к оному - http://datasift.com/Его клиенты:Среди них есть наш старый знакомый LexisNexis.  Короче, как и все в Pax American "бессознательное" это тоже бизнес.Дело не в интернете он лишь облегчает процесс.Наивно полагать, что методики моделирования и управления в совокупности с мощью "денег" не справятся с какими нибудь региональными "ментальными эгрегорами" типа уральского, при отсутствии сопротивления ( позитивный пример которого - Сергей Колясников).Силовики, СМИ, университеты, религиозные, общественные деятели, вопрос только в "акторах" и минимизации ресурсов для достижения цели, ну и самой цели конечно.На примере украины прекрасно видно, как ломается ментальная основа и как можно заставить нормальных людей убивать себе подобных фактически за просто так.Послушное блеяние европеиодов так же один из продуктов деятельности машины запущенной римским клубом (а может и раньше).Честно Вам скажу друзья, я эту математическую хрень не люблю, хотя в нее и не плохо могу, так как считаю, что подобное вмешательство в естественное человеческое уничтожает скажем так божественную искру, а денежно-ментально-цифровое рабство ничуть не лучше той языческой гадости, что была в римской империи.  Тем более, что в основе нового миропорядка отнюдь не атеистический моральный кодекс строителей коммунизма, а штуки гораздо менее атеистические и не приятные. Вскользь прошелся здесь.Также не испытываю особо сильного восторга по поводу курса нашего правительства на интеграцию населения России в эту новую "глобальность", но глядя на некоторые шаги руководства остается надежда на то, что все закончится хорошо. Поживем, как говорится, увидим.Личный же рецепт прост - патриотическое сознание и критическое мышление.Посмотрите каким российским персонажам раздали verified статусы в фейсбуке, вслед за украинскими, где его повесили всем вплоть до командиров батальонов и персонажам вроде Геращенко.Россия все verified аккаунты:https://www.facebook.com/navalnyhttps://www.facebook.com/mikhailkhodorkovskyhttps://www.facebook.com/nakhim.shifrinhttps://www.facebook.com/slobodin.mikhailhttps://www.facebook.com/toloknohttps://www.facebook.com/Damiankudriavtsevhttps://www.facebook.com/nossikhttps://www.facebook.com/sindeevahttps://www.facebook.com/maria.lirainhttps://www.facebook.com/borovoihttps://www.facebook.com/andrey.loshakhttps://www.facebook.com/tintorerohttps://www.facebook.com/skuznhttps://www.facebook.com/krasovkinhttps://www.facebook.com/alena.vladimirskayahttps://www.facebook.com/varfolomeevОсобянчком стоят:https://www.facebook.com/ivan.zassourskyhttps://www.facebook.com/Rasstrigahttps://www.facebook.com/tina.kandelakiОтдельно выданы "медальки" Доренке и буддисту Засурскому, с Тиной Какделаки.  В виду бОльшей адекватности оных попробую поинтересоваться о физическом механизме получения "метки".Даже не разбирающийся в сортах политических деликатесов человек, глядя на этот список патентованной "совести нации", может сделать выводы о назначении "сети", соответственно совет - всегда мойте с мылом руки и мозги после фб.Подытожу - в целом мое мнение, не смотря на бешеную медийную активность клоунов - на выходе пшик, типа как с медузой, "переформатирование"русской шматрицы топорное.Удивляюсь, как и кто им еще что то платит, РИАН кладет их на лопатки одной левой, пока кладет.

03 сентября 2015, 11:34

Когнитивная система IBM Watson: принципы работы с естественным языком

IBM Watson — одна из первых когнитивных систем в мире. Эта система умеет очень многое, благодаря чему возможности Watson используются во многих сферах — от кулинарии до предсказания аварий в населенных пунктах. В общем-то, большинство возможностей Watson не являются чем-то уникальным, но в комплексе все эти возможности представляют собой весьма мощный инструмент для решения разнообразных вопросов. Например — распознавание естественного языка, динамическое обучение системы, построение и оценка гипотез. Все это позволило IBM Watson научиться давать прямые корректные ответы (с высокой степенью достоверности) на вопросы оператора. При этом когнитивная система умеет использовать для работы большие массивы глобальных неструктурированных данных, Big Data. Каковы основные принципы работы IBM Watson с языком? Об этом — в продолжении. Читать дальше →

16 июля 2015, 20:27

Palantir, мафия PayPal, спецслужбы, мировое правительство

«Лучший способ избавиться от дракона — это иметь своего собственного» На Хабре нет ни одного упоминания о Palantir`е, в русской Википедии об этом проекте нет статьи, Mithgol молчит — что-то идет не так. Или так. А между тем Palantir стала второй крупнейшей частной компанией Кремниевой Долины с оценкой в 20 000 000 000$ (уступив Uber). Среди прочих заслуг Palantir`а — раскрытие крупных китайских разведывательных операций Ghostnet и Shadow Network. Журналист: — В «Википедии» говорится, что вы входите в управляющий комитет Бильдербергского клуба. Правда ли это, и если да, чем вы там занимаетесь? Организуете тайное мировое господство? Питер Тиль: — Это правда, хотя все не до такой степени тайно или секретно, чтобы я не мог вам рассказать. Суть в том, что ведется хороший диалог между разными политическими, финансовыми, медиа- и бизнес-лидерами Америки и Западной Европы. Никакого заговора нет. И это проблема нашего общества. Нет секретного плана. У наших лидеров нет секретного плана, как решить все наши проблемы. Возможно, секретные планы – это и плохо, но гораздо возмутительнее, по-моему, отсутствие плана в принципе. Приходится собирать информацию о Palantir`е по крохам. И такая жирная кроха прячется в книге Питера Тиля «От нуля к единице» (хотя в этой книге множество намеков и информации между строк, так же как в легендарном курсе и его переводе на Хабре, спасибо zag2art). Питер Тиль: Цель, которую я ставил перед собой, читая стэнфордский курс о стартапах и предпринимательстве, заключалась в том, чтобы донести все те знания о бизнесе, которые я приобрел за последние 15 лет в Кремниевой долине как инвестор и предприниматель, собрать их воедино. С книгой то же самое. Надеюсь, благодаря этой статье и комментам хабрачитателей, положение дел относительно Palantir`а станет чуточку яснее. (Есть многомиллиардный рынок, связанный с аналитикой и ИБ, а мы ничего про него не знаем.) Читать дальше →

10 февраля 2013, 15:22

принципы Рэя Далио.

Это самое лучшее, что я читал в своей жизни. Почему? Потому что это выглядит так, как будто это я сам написал в 60 лет письмо в прошлое себе 30-летнему, по большому секрету. Написанное Рэем Далио очень живо пересекается с рядом моих философских выводов, которые я успел сделать по жизни. о реальности: dr-mart.livejournal.com/10136.html развитие идей реальности: smart-lab.ru/blog/notes/43.php концепция равновесия: http://smart-lab.ru/blog/mytrading/16591.php формула счастья: smart-lab.ru/blog/notes/31.php работа над ошибками (пример): smart-lab.ru/blog/mtrading/7499.php о роли цели: smart-lab.ru/blog/48396.php о дисциплине: smart-lab.ru/blog/92360.php о независимости мышления: smart-lab.ru/blog/94275.php   Многие мои из описанных выше идей вызывали насмешки у публики. Это видно по комментариям к каждой из записей. Я всегда их читал, но мне честно говоря было наплевать на насмешки, потому что я формировал свое представление об устройстве мира. И вот я встречаю вот это:http://www.bwater.com/Uploads/FileManager/Principles/Bridgewater-Associates-Ray-Dalio-Principles.pdf Это чтиво, которое полностью пересекается с тем, что я вывел до этого. Более того, чтиво более систематизировано и имеет вполне завешенный вид. В отличие от меня, Далио, применяя эти концепции, добился большого успеха в жизни, доказав работу этих принципов. Я немного законспектировал эти принципы и хочу предложить их наиболее думающим из вас. Конспектировал для себя, поэтому местами выглядит сумбурно. ***

10 февраля 2013, 15:22

принципы Рэя Далио.

Это самое лучшее, что я читал в своей жизни. Почему? Потому что это выглядит так, как будто это я сам написал в 60 лет письмо в прошлое себе 30-летнему, по большому секрету. Написанное Рэем Далио очень живо пересекается с рядом моих философских выводов, которые я успел сделать по жизни. о реальности: dr-mart.livejournal.com/10136.html развитие идей реальности: smart-lab.ru/blog/notes/43.php концепция равновесия: http://smart-lab.ru/blog/mytrading/16591.php формула счастья: smart-lab.ru/blog/notes/31.php работа над ошибками (пример): smart-lab.ru/blog/mtrading/7499.php о роли цели: smart-lab.ru/blog/48396.php о дисциплине: smart-lab.ru/blog/92360.php о независимости мышления: smart-lab.ru/blog/94275.php   Многие мои из описанных выше идей вызывали насмешки у публики. Это видно по комментариям к каждой из записей. Я всегда их читал, но мне честно говоря было наплевать на насмешки, потому что я формировал свое представление об устройстве мира. И вот я встречаю вот это:http://www.bwater.com/Uploads/FileManager/Principles/Bridgewater-Associates-Ray-Dalio-Principles.pdf Это чтиво, которое полностью пересекается с тем, что я вывел до этого. Более того, чтиво более систематизировано и имеет вполне завешенный вид. В отличие от меня, Далио, применяя эти концепции, добился большого успеха в жизни, доказав работу этих принципов. Я немного законспектировал эти принципы и хочу предложить их наиболее думающим из вас. Конспектировал для себя, поэтому местами выглядит сумбурно. ***