ITA Software представила революционный инструмент для систематизации данных

Компания ITA Software представила на всеобщее обозрение публичную версию своего уникального сервиса под названием Needlebase. Назначение этого сервиса трудно объяснить в двух словах, хотя пользоваться им действительно несложно для любого человека, понимающего принципы организации баз данных и умеющего обращаться с электронными таблицами. Главная цель сервиса Needlebase – построение упорядоченных наборов данных из разнообразных источников силами конечного пользователя. Сервис Needlebase позволяет просматривать веб-страницы, из которых вы собираетесь черпать данные, в окне виртуального браузера.

Из этих страниц вы можете выделить элементы, которые вас интересуют, а затем можете показать, как эти элементы будут связаны между собой в будущей базе данных – результатом работы будет своего рода база данных. Далее сервис Needlebase самостоятельно анализирует содержимое источников и заполняет поля базы данных (или сводной таблицы – точный термин подобрать пока трудно). После сбора и анализа исходных данных полный набор нужной вам информации отображается в виде таблицы, списка или карты. Более того, вы можете объединить ячейки, которые, по вашему мнению, содержат одинаковые данные. Сервис Needlebase прекрасно подходит даже для неискушенных в технологиях пользователей. Практически любой достаточно опытный пользователь может с помощью этого сервиса быстро и легко собрать всю нужную информацию, а затем привести ее к систематизированному виду – обычно для таких задач приходится привлекать квалифицированных специалистов. Для чего можно использовать сервис Needlebase? Вот первый пример: журналистское расследование. Одна небольшая местная газета сообщила, что в г. Солт-Лейк-Сити (шт. Юта, США) открывается крупный центр обработки данных, но имя заказчика не раскрывается. Газета уверена, что заказчиком является компания Twitter, поскольку в сети встречалось заявление об открытии первого собственного вычислительного центра Twitter без указания сроков. Журналисты применили сервис Needlebase для сбора всех сообщений от людей, которые перечислены в списке сотрудников компании Twitter. Из собранных сообщений сервис Needlebase извлек имена пользователей, текст сообщений и места, откуда было опубликовано сообщение, если они были указаны. Сбор и обработка самых 1500 свежих твит-сообщений заняли меньше 5 минут. Когда собранные данные были отображены на карте, оказалось, что один из работников Twitter прямо сейчас пишет свои сообщения из Юты. Один из технических специалистов по обслуживанию серверных площадок сообщил, что собирается выехать из Сан-Франциско в Юту из-за проблем с маршрутизатором Qwest. Конечно, это всего лишь косвенные подтверждения гипотезы газетчиков, но для многих случаев большего и не нужно. Еще один пример использования Needlebase связан с пересортировкой данных. Журналист, собирающий информацию о геоинформационных технологиях, собрал список 300 блогов. Собранный список блогов был отсортирован с помощью сервиса Postrank, который оценивает ресурсы с точки зрения их «авторитетности» по откликам в социальных сетях и комментариям читателей. Чтобы систематизировать исторические данные о публикациях во всех этих блогах, журналист применил сервис Needlebase для анализа всего рейтинга, выведенного сайтом Postrank. В итоге получился список самых резонансных блогов, посвященных геоинформационным технологиям, с указанием их предыдущих мест в рейтинге, а также истории их взлетов и падений. Результатом стала интересная статья, рассказывающая о том, какие блоги и как освещают развитие геоинформационных систем в последнее время. В свое время технология Needlebase была создана, как вспомогательный проект компании ITA Software, которая занимается инструментами для поиска и подбора туристических маршрутов. В данное время компания Google ведет переговоры о покупке компании ITA Software, но правительство США пока не уверено, что желает отдать поисковому гиганту еще и поиск туров. По мнению комментаторов с сайта ReadWriteWeb, сервис Needlebase вместе с другими инструментами для массового анализа веб-страниц и других источников информации способен совершить такую же революцию в обработке текстовых данных, какую блоги совершили в сфере периодической печати. Фактически, сервис Needlebase резко снижает входной порог в мир свободного извлечения и обработки данных с любых сайтов и из любых текстовых источников. Подробнее узнать о возможностях сервиса Needlebase (бесплатного для личного пользования) по сбору, обработке и систематизации информации через Интернет, а также увидеть хороший ролик с демонстрацией приемов работы можно в обзоре на сайте ReadWriteWeb.