Новая компьютерная программа сама познает мир

В современном мире цифровых технологий доступ к информации становится безграничным.

Но когда вы имеете ввиду что-то конкретное, название того, что вы не знаете, например, кухонную принадлежность, которую вы видели в доме своего друга, бывает на удивление тяжело найти эту информацию в интернете, тем более, если вы не имеете ни малейшего представления, что искать. Или может возникнуть противоположная проблема — мы знаем, что нам нужно, но как мы можем быть уверенными, что найдем всю информацию по интересующей нас тематике, не проводя долгие часы за компьютером?

Ученые из Вашингтонского университета и института искусственного интеллекта в Сиэтле создали первую полную автоматическую компьютерную программу, которая находит всю информацию о любом проекте или визуальной идее. Программа под названием LEVAN ( Learning EVerything about ANything, «изучение всего обо всем») ищет миллионы книг и изображений в интернет-пространстве, чтобы узнать все возможные варианты, затем отображает результаты пользователям в виде набора изображений, чтобы помочь быстро изучить проблему в мельчайших подробностях.

Некоторые варианты, изученные новой программой

«Она находит связь между текстовыми и визуальными данными», — рассказал Али Фаради, доцент кафедры компьютерных наук и инженерии Вашингтонского университета. «Программа изучает наборы пар фраза — пиксельное изображение. Это означает, что она может распознать конкретные понятия, когда их видит».

Команда разработчиков представит проект уже в этом месяце на ежегодной конференции в Колумбии, посвященной компьютерному зрению и распознаванию образов.

Программа определяет, какие признаки присутствуют в изображениях, найденных в интернете и выявляет характерные шаблоны с помощью алгоритмов распознавания образов. Программа отличается от интернет-библиотеки изображений, поскольку она опирается на большой набор фраз, чтобы идентифицировать изображение и пометить его по его содержанию и количеству пикселей, а не просто по словам, отображаемых в заголовках.

Пользователи могут просматривать около 175 концепций в существующих библиотеках. Диапазон существующих концепций — от «окна» до «авиакомпании», включая «красивый», «завтрак», «блестящий», «рак», «инновация», «скейтборд», «робот», а разработчики впервые ввели понятие «лошадь».

Если понятие, которое вы ищете не существует, вы можете ввести любой запрос, и программа сама автоматически сгенерирует исчерпывающий перечень подкатегорий изображений, которые имеют отношение к вашему запросу. Например, поиск по слову «собака» вызовет очевидный набор подкатегорий: «собака породы чихуахуа», «черная собака», «плавающая собака»,«взъерошенная собака», «борзая собака» , а также «собачий нос», «собачья миска», «грустная собака», «уродливая собака», «хот дог» и даже позу йоги «собака мордой вниз».

Методика работает с помощью поиска миллионов книг, написанных на английском языке и доступных в Google, отыскивая понятия во всей цифровой библиотеке интернета. Далее алгоритм отфильтровывает слова, которые нельзя представить визуально. Например, по запросу «лошадь» алгоритм найдет такие фразы как «скачущая лошадь» или «питающаяся лошадь», но исключит невизуальные фразы «моя лошадь» или «последняя лошадь». После того, как программа узнала, какие фразы являются актуальными, она выполняет поиск изображений в интернете, ищет внешние сходства среди найденных фотографий. Когда программа пытается найти все соответствующие изображения, скажем «скачущая лошадь», она распознает все образы, связанные с этой фразой.

«Основные информационные ресурсы, такие как словари и энциклопедии, движутся в этом направлении, показывая пользователям визуальную информацию, так как это гораздо легче понять и просмотреть. Тем не менее, они имеют ограниченный охват, поскольку они зачастую ищут вручную. Новая программа не требует присутствия человека, и таким образом, может автоматически изучить визуальные знания по любой тематике», — рассказал Сантош Диввала, научный сотрудник института искусственного интеллекта.

Команда разработчиков запустила программу в марте, наблюдая как она увеличивает небольшой набор понятий до 13 миллионов изображений с 65 000 различных фраз. В настоящее время программа ограничена вычислительной мощностью, так как на обработку отдельных запросов может уходить до 12 часов. Разработчики продолжают работать над увеличением скорости обработки запросов и возможностями программы.

Эта open-source программа является мощным образовательным инструментом, а также информационным банком для исследователей проблем компьютерного зрения. Команда также планирует создать мобильное приложение, которое будет запускать программу для автоматического анализа и классификации фотографий. Это практический пример реализации концепции обучения с учителем.

Источник: University of Washington

[add_ratings]

Еще по этой теме

Программа LEVAN, используя алгоритмы машинного обучения, сначала выстраивает функциональную зависимость на уже известных примерах: текстовая фраза — изображение (какой-то набор пикселей). Это называется задачей классификации, и программа обучается «с учителем».

Т.е. программе на вход вначале дается пример фразы и картинка, которая соответствует этой фразе. И таких уже известных примеров ей передается большое количество. Это называется «обучающее множество» и этот процесс программа делает самостоятельно, она сама ищет где ей учиться. Далее программа самостоятельно находит некоторые шаблоны в обучающем множестве и формирует систему правил, по которой она сможет самостоятельно производить классификацию уже НЕизвестных ей изображений.

После этого, находя какое-то новое изображение в Сети, программа использует созданные ей же шаблоны для того, чтобы отнести найденное ей изображение к какой-то группе (т.е., например, по мнению программы, на картинке изображен летящий самолет). И пользователю будет выдано это изображение в качестве ответа, если он будет искать летящий самолет.

Google при поиске картинок берет вашу фразу из строки поиска и ищет картинки, у которых в названии, тегах описания, или же в тексте вокруг картинки встречается эта фраза. Гугл не занимается распознаванием образов (того что же на самом деле изображено). Например, возьмите фотографию тепловоза и назовите файл самолет.jpg. Гугл выдаст вам ее при запросе «самолет», хотя на картинке, будет тепловоз.

Про алгоритмы машинного обучения почитайте у меня статейки

robotosha.ru/algorithm/in...ne-learning.html

robotosha.ru/algorithm/ma...nsupervised.html

robotosha.ru/algorithm/lo...and-predict.html

Я алгоритмы машинного обучения последние пару лет очень плотно изучаю и использую, поэтому планирую у себя публиковать достаточно много материала в этой области.

Ответить

4 thoughts on “Новая компьютерная программа сама познает мир”

Garmahis:
15.08.2014 в 17:57
Не совсем понял чем эта программа отличается от того же гугля?
Ответить
1. Андрей Антонов:
  15.08.2014 в 18:56
  Программа LEVAN, используя алгоритмы машинного обучения, сначала выстраивает функциональную зависимость на уже известных примерах: текстовая фраза — изображение (какой-то набор пикселей). Это называется задачей классификации, и программа обучается «с учителем».
  Т.е. программе на вход вначале дается пример фразы и картинка, которая соответствует этой фразе. И таких уже известных примеров ей передается большое количество. Это называется «обучающее множество» и этот процесс программа делает самостоятельно, она сама ищет где ей учиться. Далее программа самостоятельно находит некоторые шаблоны в обучающем множестве и формирует систему правил, по которой она сможет самостоятельно производить классификацию уже НЕизвестных ей изображений.
  После этого, находя какое-то новое изображение в Сети, программа использует созданные ей же шаблоны для того, чтобы отнести найденное ей изображение к какой-то группе (т.е., например, по мнению программы, на картинке изображен летящий самолет). И пользователю будет выдано это изображение в качестве ответа, если он будет искать летящий самолет.
  Google при поиске картинок берет вашу фразу из строки поиска и ищет картинки, у которых в названии, тегах описания, или же в тексте вокруг картинки встречается эта фраза. Гугл не занимается распознаванием образов (того что же на самом деле изображено). Например, возьмите фотографию тепловоза и назовите файл самолет.jpg. Гугл выдаст вам ее при запросе «самолет», хотя на картинке, будет тепловоз.
  Про алгоритмы машинного обучения почитайте у меня статейки
  robotosha.ru/algorithm/in...ne-learning.html
  robotosha.ru/algorithm/ma...nsupervised.html
  robotosha.ru/algorithm/lo...and-predict.html
  Я алгоритмы машинного обучения последние пару лет очень плотно изучаю и использую, поэтому планирую у себя публиковать достаточно много материала в этой области.
  Ответить
  1. Garmahis:
    15.08.2014 в 19:31
    Про алгоритмы было бы очень интересно!!! Я сейчас начинаю это изучать мне было бы очень полезно.
    Вот только что нашел фотографию паровоза. Переименовал в самолет.jpg и подтер все теги. И задал в гугле поиск по картинке. И он отлично понял что это паровоз. Даже модель разобрал и ссылку на вики по этой модели вывел.
    Ответить
Андрей Антонов:
15.08.2014 в 19:45
Тут вот в чем проблема — вы скачали фотку, которую Гугл уже знал. Возможно, в сети есть куча ее дубликатов (в другом разрешении). Попробуйте сфоткать чайник и назовите файл компьютер.jpg. И попробуйте найти компьютер. Возможно, в выдаче появится ваш чайник. Это теоретически... Я сам не пробовал. Хотя, может Гугл стал умнее... Тогда ваша версия верна — эта программа делает то же самое что и Гугл. По-крайней мере, переводчик Гугл точно с течением времени лучше переводит тексты, в обучении алгоритмов участвуют миллионы людей — там в окошке прямо кнопка есть «Улучшить перевод». Можно предложить свой вариант перевода текста. Гугл всех поработил. Весь мир работает на Гугл, улучшает его алгоритмы, сам того не подозревая 🙂
Ответить

Еще по этой теме

4 thoughts on “Новая компьютерная программа сама познает мир”

Оставить ответ Отменить ответ