Первые попытки
Первые попытки заставить компьютер «видеть» относятся к началу 60-х годов 20 века. Однако, лишь в последние годы в связи с синергетическим эффектом от таких технологий, как машинное и глубокое обучение (Machine/Deep Learning), искусственный интеллект (Artificial Intelligence) и анализ больших данных (Big Data), технологии компьютерного (машинного) зрения стали находить все больше применений в различных отраслях индустрии и повседневной жизни людей. Рынок и диапазон применений компьютерного зрения в последние 10-15 лет значительно расширились.
По прогнозу аналитической компании Tractica, к 2022 году рынок компьютерного зрения в таких отраслях, как автомобилестроение, спорт и развлечения, потребительские устройства, робототехника и машинное зрение, медицина, безопасность и видеонаблюдение, розничная торговля и сельское хозяйство, составит около 50 млрд. долларов, хотя в 2015 году он был менее 5 млрд.
Согласно известной кривой «хайп-цикла Гартнера» (Gartner Hype Cycle), восприятие технологии компьютерного зрения переходит от стадии «пика завышенных ожиданий» (Peak of Inflated Expectations) в 2017 году к «спаду избавления от иллюзий» (Through of Disillusionment) в 2018 году. Причем, Gartner изменил свой прогноз относительно периода выхода технологий компьютерного зрения на «плато продуктивного использования» с 5-10 лет в 2017 году до 2-5 лет в 2018 году.
Рисунок 1. Изменение прогноза Гартнера о перспективах технологий компьютерного зрения (источник: Gartner).
Возникновение компьютерного зрения
Существуют много версий о дате возникновении компьютерного зрения, и о том, кто был его первым изобретателем.
Одна из первых известных статей по теме, которую можно отнести к области компьютерного зрения, была опубликована в 1959 году двумя нейропсихологами из медицинского института Wilmer при университете Джона Хопкинса, США (Wilmer Institute, The Johns Hopkins Hospital andUniversity, Baltimore, Maryland), Дэвидом Хубелем (David Hubel) и Торстеном Визелем (Torsten Wiesel), под названием «Receptive fields of single neurons in the cat’s striate cortex»[1]. В статье описывались основные свойства зрительных корковых нейронов кошек, а также о том, как накопленный зрительный опыт кошки формирует корковую структуру (cortical architecture) мозга кошки.
Эту же статью, вероятно, также можно считать одной из первых публикаций по нейросетям.
Рисунок 2. Возникновение электрических сигналов в мозге кошки под воздействием движущегося объекта на экране (D. H. Hubel, T. N. Wiesel, 1959).
Однако, считается, что первая идея о том, чтобы научить компьютер видеть, возникла у профессора MIT (Массачусетский Институт Технологий) Лоуренса Робертса (Lawrence Roberts), которого называют одним из основателей Интернета. Он первым создал системы распознавания форм предметов при помощи компьютера, на чём защитил в MIT докторскую диссертацию (PhD).
В 1970 году Робертс уже читал в MIT курс по компьютерному зрению. В MIT ещё в конце 50-х была создана Лаборатория искусственного интеллекта (AI Lab). Позднее эта лаборатория стала также заниматься исследованиями по компьютерному зрению. Фактически, компьютерное зрение соотносится с AI так же, как глаза человека с его мозгом.
Рисунок 3. Лоуренс Робертс и иллюстрация из его диссертации (источник: MIT).
Активное развитие
В последние годы компьютерное зрение стало активно использоваться в промышленности. Более 100 различных компаний начали производить системы машинного зрения. Были разработаны специальные светодиоды для систем машинного зрения, расширялись функции световых сенсоров и архитектуры управления системами компьютерного зрения. Это значительно расширяло их функционал при постоянном снижении цен на такие системы.
Развитие Интернета в 90-х годах привело к накоплению огромных массивов оцифрованных изображений, которые стали доступны для анализа в режиме онлайн. Начали активно развиваться программы распознавания печатного и рукописного текста, а также распознавание лиц на фото и видео.
В последние 10-15 лет в связи с развитием облачных технологий, виртуализации вычислений, и таких прикладных областей, как машинное и глубокое обучение, Big Data и пр., развитие компьютерного зрения получило новый импульс для роста.
Например, в автомобилестроении транспортные средства, как правило, включают множество вариантов деталей, поэтому автопроизводители применяют системы компьютерного зрения, чтобы считывать маркировку компонентов при сборке на конвейере для того, чтобы были установлены именно нужные в данной комплектации детали.
Кроме того, компьютерное зрение необходимо для управления роботами на автосборочном конвейере. Компьютерное зрение также используется для повышения качества, в частности, для осмотра, калибровки, проверки размеров, зазоров, расстояний, а также для выравнивания деталей на линиях сборки автомобилей.
В производстве пищевой продукции системы компьютерного зрения могут проверять, все ли ингредиенты указаны на упаковке товара, особенно те, которые могут содержать аллергические вещества. Нанесение штрих-кодов необходимо для скоропортящихся товаров, а код партии необходим на случай отзыва продукции из обращения. Системы машинного зрения могут обеспечить точный и гигиеничный бесконтактный метод контроля уровня заполнения или размеров готовой продукции для соответствия уровню качества.
Фармацевтика подразумевает высокую ответственность за обеспечение безопасности, поэтому необходимо надёжно отслеживать все компоненты состава и качество готовой продукции.
При изготовлении микросхем и электронных компонентов компьютерного зрения используют в чистых помещениях для контроля размещения кремниевых пластин, маркировки и положения чипа интегральных схем и других элементов.
Более 100 различных компаний, такие как Adani, Cognex, ViperImaging, Applied Vision Corporation, Omron и другие начали производить системы машинного зрения.
Были разработаны специальные светодиоды для систем машинного зрения, расширялись функции световых сенсоров и архитектуры управления системами компьютерного зрения. Это значительно расширяло их функционал при постоянном снижении цен на такие системы.
Развитие Интернета в 90-х годах привело к накоплению огромных массивов оцифрованных изображений, которые стали доступны для анализа в режиме онлайн. Начали активно развиваться программы распознавания печатного и рукописного текста, а также распознавание лиц на фото и видео.
Сегодня компьютерное зрение широко применяется для многих компонентов цифровой экономики:
- «Умный город» (Smart City),
- Интеллектуальные транспортные системы ITS (Intelligent Transportation System),
- Автономные автомобили (Driverless Car) и системы помощи водителю ADAS (Advanced driver-assistance systems),
- Беспилотные летательные аппараты (в т.ч. дроны),
- Высокотехнологичное сельское хозяйство (Smart Agriculture),
- Электронная медицина (eHealth)
- Системы военного применения,
- Аддитивное производство (3D-printing) и многих других.
Развитие систем компьютерного зрения пока далеко от реализации всех его возможностей, но они быстро развиваются, и диапазон их применений ширится.
[1]https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1363130/
Уведомление: Kolm põnevat IT-lahendust, mis pärinevad kolmelt erinevalt aastakümnelt – E-ITSPEA blogi