В поисках новой нефти

В XXI веке нефтью являются данные. Они имеют ценность, но лишь как сырье.

Чтобы получить топливо, пластик или каучук нефть необходимо переработать. С данными ситуация аналогичная. Они пока лишь исходный материал, некий набор характеристик и цифр. Как и с нефтью, нужны технологии очистки и переработки данных, которые помогут им трансформироваться в информацию, а затем – в знания. 

Роль этих технологий играют алгоритмы. Именно благодаря алгоритмам данные преобразуются в информацию, с помощью которой решаются те или иные задачи – от анализа предпочтений покупателя до мониторинга дорожного движения. 

В зависимости от используемой технологии из нефти можно получить дизельное топливо, можно каучук для изготовления резины, либо пластмасс для отделки салона автомобиля или самолета. Как и из нефти с одних и тех же данных можно получить разный продукт. В зависимости от алгоритма, базу данных человеческих лиц можно использовать для розыска преступников, а можно для мониторинга эмоций зрителей во время показа мод (чтобы определить, на какое платье или костюм была положительная реакция).

Есть еще одно сходство у данных с нефтью. Как и при добыче углеводородного сырья, данные надо уметь добыть. Можно условно выделить четыре способа получения данных:

«Открытый» тип. Построение алгоритмов для работы с общедоступными данными. К этой категории можно отнести любую поисковую систему. Поисковики Google, Bing, Yahoo, Ask.com, Aol.com, Wolframalpha, Yandex, Baidu и другие работают с информацией, которая в равной степени доступна всем. Каждый имеет доступ ко всем страницам различных информационных и новостных порталов, страницам государственных органов, коммерческих компаний и общественных организаций. Разница лишь в алгоритмах обработки существующей информации и выдаче результатов. 

К этому же «открытому» типу добычи информации можно отнести и создание различных навигационных приложений. Цифровые карты городов – общедоступная информация. 

Китайское правительство относит базу данных на лица своих граждан также к открытому типу информации. Компании, зарегистрированные в КНР и занятые разработкой технологий искусственного интеллекта, могут получать доступ к изображениям сотен миллионов граждан этой страны.

«Закрытый» тип получения информации. Ее можно назвать также Data mining («добыча данных). Это автоматический или полуавтоматический процесс, который анализирует большой объем собственной информации и превращает ее в знания. Наиболее активно используется в банковском секторе, в продажах и маркетинге. Например, Amazon на основе данных о возрасте покупателя, его пола, вкусов, предпочтений и привычек определяет, какие предложения наиболее ценны для покупателя. 

Формирование цифрового контента своими силами. В отличие от использования уже существующей информации, здесь предполагаются усилия по формированию данных. Сюда можно отнести сканирование уникальных книг библиотеками мира или коллекций картин различными художественными музеями и галереями. К этой же категории следует отнести такие проекты как archive.org по оцифровке старых книг и статей, а также Google Books по оцифровке вообще всех книжных источников информации.

Создание платформы для сбора данных пользователей. К этому методу сбора данных прибегают, в частности, различные социальные сети. Facebook, LinkedIn, Twitter не только собирают данные от своих пользователей (день рождения, место учебы, работы, интересы и пр.), которые им предоставляются людьми добровольно, но и делают своего пользователя активным источником информации.

Такой же платформой является Wikipedia. 

Новые "нефтедобывающие" компании...
Новые «нефтедобывающие» компании…

На примере Prabook (Книги Жизни) мы покажем, какие способы сбора данных использовались для реализации проекта. Кстати, собирать информацию на людей – задача не только благородная, но и благодарная. Ведь люди в известном смысле бессмертны. Раз собранная и занесенная в базу данных информация о людях не устаревает никогда!

Возьмем для примера базу данных на рестораны города Минска. Интерес она представляет лишь на текущий момент. Пройдет лет десять, и она устареет процентов на 20-30. Какие-то рестораны поменяют названия и перепрофилируют ассортимент блюд, другие разоряться и на их месте появятся новые объекты.

Информация о жившем некогда человеке будет сохранять свою актуальность и через сто и через тысячу лет. В этом смысле люди — вечно живые. Сократа, Ницше или Кьеркегора уже давно нет. Но их жизни и дела нам сегодня важны не меньше, а может быть и больше, чем их современникам. И информация о них никогда не устареет!

Первое, что мы сделали – создали интерактивную платформу, где каждый мог бы заносить информацию о себе, своих родственниках, людях, которые находятся в фокусе общественного внимания. В отличие от Википедии, которая позволяет у себя размещать информацию о людях, основываясь на принципе популярности, мы позволяем это делать на любого человека, о ком есть что сказать. 

Так выглядит первая страница структуры анкеты. Каждый раздел разбит на параграфы, которые содержат подсказки в отношении того, что писать.
Так выглядит первая страница структуры анкеты. Каждый раздел разбит на параграфы, которые содержат подсказки в отношении того, что писать.

При этом мы использовали структуру анкеты. Во-первых, всегда легче писать статью, когда есть разбивка на разделы и подразделы, каждый из которых содержит подсказки. Во-вторых, структурирование статьи позволяет выискивать разнообразные связи между людьми.

Для того, кто первый раз заходит на Facebook и заполняет несколько разделов анкеты, во многом как чудо воспринимается то, как точно Facebook угадывает кого порекомендовать вам в качестве друзей.

Помимо задействования интерактивной платформы, формирование контента идет силами разработчиков. С этой целью мы скупаем по всему миру биографические книги и справочники. 

Это одна из наших книжных полок. Эти книги еще ожидают, что их оцифруют.
Это одна из наших книжных полок. Эти книги еще ожидают, что их оцифруют.

Многие библиотеки, не в состоянии расширяться физически, принимают решения освободиться от части своих фондов. 

Например, имея 4 идентичных справочника о китайских деятелях начала XX века, библиотека университета Торонто принимает решение 2 справочника продать на Ebay, чтобы освободить место на полках для новых поступлений. 

Один из них мы покупаем. Скажу сразу: стоят эти книги относительно недорого. Обычная цена — от 5 до 10 долларов. Так, например, два тома про деятелей китайской династии Минь – совершенно уникальный справочник, изданный в Вашингтоне в 1945 году, стоил всего 20 долларов.

Встречаются, конечно, и источники подороже. Так, единственный в своем роде Biographical Dictionary of Japan был приобретен за 100 долларов. Но это было самое дорогое приобретение – совершенно уникальный источник информации, 1960 года издания, содержащий свыше 16 тысяч биографических описаний. Благодаря ему, у нас на сегодняшний день имеется самая большая электронная база данных на японцев – от самураев до президентов японских корпораций и банков. Вся информация о них уже занесена на Prabook.

А это пример статьи из еще одного источника Who’s Who середины прошлого века.
А это пример статьи из еще одного источника Who’s Who середины прошлого века.

Первое, что требовалось сделать — это оцифровать источник и перевести его в электронную форму:

Затем — расшифровать сокращения. Во-первых, они смотрятся плохо. Во-вторых, электронная база данных может хранить практически неограниченный объем текстовой информации (у издателей справочников стояла задача «втиснуть» в книгу максимально возможный объем информации). Созданная нами программа расшифровывала все сокращения. 

Вот как это выглядело:

После автоматического разбора текста (парсинга) и расшифровки сокращений в результате получается вот такая статья:

Стандартная статья, сгенерированная программой (без участия оператора)
Стандартная статья, сгенерированная программой (без участия оператора)

Машина также определяет дубли. Допустим, в разных источниках находится информация об одном и том же человеке. В одном источнике дается больше сведений о его образовании, в другом — о его карьере, в третьем упоминаются его политические или религиозные взгляды. После парсинга программа выбирает разделы, в которых содержится максимально полная информация о человеке, и сливает информацию из 3-4-5 источников в один.  Получается более полная анкета на человека.  

Алгоритм работы программы "мерджинга" - формирование статьи из разных источников.
Алгоритм работы программы «мерджинга» — формирование статьи из разных источников.

Гугл, понимая, что в книгах содержится кладезь информации, запустил сервисы Google Books и archive.org. Но мы в Прабуке не только сканируем страницы, но делаем информацию структурированной, систематизированной, легко извлекаемой по нужным нам параметрам.

P.S. Юваль Ной Харари в книге Homo Deus оказался настолько увлечен техническими возможностями данных, что придумал новую для человечества религию – «датаизм» (от слова data – данные). В каком виде люди будут поклоняться новому «культу»? Как когда-то на территории современного Азербайджана сторонники пророка Заратустры поклонялись горящей нефти? Или как в XX веке перед нефтью преклонялись как главным источником богатства? 

Не более того. Нефть действительно была источником богатства и власти и потому причиной некоторых локальных конфликтов и даже войн. Но в отличие от религии, нефть не была объектом духовного поклонения, сложных моральных исканий и душевного трепета. Ту же участь ожидает «датаизм». Тот, кто сможет собрать первоначальные данные и разработать алгоритмы их обработки получит источник немалого дохода. Подобно тому как огромные доходы получали те, кто разработал технологии добычи и переработки нефти. 

Но обладание данными, как и нефтью не дает духовной власти над миром людей. 

Корпорации, которые работают с информацией уже обошли по рыночной капитализации те, кто занимался добычей и переработкой нефти. Google, Facebook, Amazon стоят сегодня дороже, чем Exxon Mobil, British Petroleum или Royal Dutch Shell.

И этот разрыв будет углубляться. Технологии получения электроэнергии из альтернативных источников будут совершенствоваться. Уже на подходе разработка недорогих аккумуляторов, которые смогут хранить накопленную за день электроэнергию и отдавать ее домашним хозяйствам вечером и ночью — до наступления следующего светового дня. Тогда начнется постепенный закат нефтяных компаний. Как когда-то это произошло с индустрией добычи природного каучука или горнодобывающими и сталелитейными империями Эндрю Карнеги. 

Более того, компании, которые ориентированы на сбор и обработку информации в перспективе окажутся в выигрыше не только по сравнению с нефтедобывающими компаниями. Они будут иметь преимущества и над технологическими компаниями.

Лет двадцать назад весь технологический мир вращался вокруг Sony. Эта корпорация присутствовала, казалось, везде. Телевизоры, компьютеры, телефоны, фотоаппараты, кинокамеры, аудио колонки, наушники, игровые приставки и многое чего выходило под этим брендом. Не сильно отставал и Panasonic. 

На рынке мобильных телефонов ярко сияла звезда Nokia, завоевав почти половину этого сегмента мирового рынка. Но были и другие серьезные игроки: Motorola, Alcatel, Siemens, Philips, Sony Ericsson.

Где они сейчас? 

Зато взошли новые звезды: Apple и Samsung. Кажется, что их технологическому доминированию ничто не угрожает. Но технологии меняются стремительно. Не исключено, что через 10-15 лет с этими корпорациями может произойти тоже, что и с Sony, Panasonic и Nokia. 

А вот компании, ориентированные на контент, на работу с данными, с информацией, будут существовать и через 10, и через 20 и через 50 лет. Google наверняка останется, так как в его распоряжении находится вся информация в мире и нет на горизонте никого, кто мог бы в обозримом будущем построить такую инфраструктуру сбора и обработки информации.

Facebook, который позволил каждому человеку превратится в источник новостей и таким образом сам стал самым крупным в мире источником информации.

Будет существовать и Wikipedia, потому как она стала глобальным информационным справочникам, создающим знания

Что касается Prabook, то объем информации о людях будет в нем из года в год увеличиваться. А информация о людях будет востребована пока на земле будет жив человек, то есть до конца времен. Ведь времени нет без человека. 

Leave a Reply

Ваш адрес email не будет опубликован. Обязательные поля помечены *