Komputer, Teknologi informasi

Visi komputer modern. Tugas dan teknologi visi komputer. Pemrograman Visi Komputer di Python

Cara mengajarkan komputer untuk memahami apa yang digambarkan dalam gambar atau gambar? Hal ini tampaknya sederhana, tetapi untuk komputer ini hanya matriks yang terdiri dari nol dan satu dari mana Anda ingin mengekstrak informasi penting.

Apa visi komputer? Ini adalah kemampuan untuk "melihat" komputer Anda

Visi - merupakan sumber informasi yang penting bagi orang yang menggunakannya, kita memperoleh, menurut berbagai perkiraan, 70-90% dari semua informasi. Dan, tentu saja, jika kita ingin membuat mobil pintar, kita perlu menerapkan keterampilan dan komputer yang sama.

Masalah visi komputer dapat dinyatakan cukup jelas. Apa yang "melihat"? Hal ini dimengerti bahwa di mana ada hanya dengan melihat. Yang menyimpulkan perbedaan visi komputer dan penglihatan manusia. Visi bagi kita - itu adalah sumber pengetahuan tentang dunia, serta sebagai sumber informasi metrik - yaitu, kemampuan untuk memahami jarak dan ukuran.

image kernel semantik

Melihat gambar, kita bisa menggambarkannya dengan sejumlah atribut, sehingga untuk berbicara, untuk mengekstrak informasi semantik.

Misalnya, melihat gambar ini, kita dapat mengatakan bahwa itu adalah di luar ruangan. Apa lalu lintas kota. Bahwa ada mobil. kita bisa menebak bahwa ini adalah Asia Tenggara pada konfigurasi bangunan dan hieroglif. Potret Mao Zedong memahami bahwa ini adalah Beijing, dan jika ada yang melihat video langsung atau dirinya sendiri sudah ada, akan menebak bahwa ini adalah Tiananmen Square yang terkenal.

Apa yang bisa kita katakan tentang gambar, melihatnya? Kita dapat mengidentifikasi objek dalam gambar, untuk mengatakan, bahwa ada orang di sini lebih dekat - pagar. Berikut payung, poster yang bangunan. Ini adalah contoh kelas adalah objek yang sangat penting, yang terlibat dalam pencarian untuk saat ini.

Masih kita dapat belajar beberapa fitur atau atribut dari objek. Sebagai contoh, di sini kita dapat menentukan bahwa ini bukan potret dari Cina biasa, yaitu, Mao Zedong.

Menurut kendaraan dapat ditentukan bahwa itu adalah objek yang bergerak, dan sulit, yang tidak cacat selama gerakan. Tentang bendera dapat dikatakan bahwa objek, mereka juga bergerak, tetapi mereka tidak sulit, terus-menerus cacat. Dan dalam adegan ada angin, yang dapat ditentukan dengan mengembangkan bendera, dan bahkan dapat menentukan arah angin, misalnya, bertiup dari kiri ke kanan.

Jarak dan panjang dalam visi komputer

Sangat penting adalah informasi metrik tentang ilmu pengetahuan visi komputer. Ini adalah semua jenis jarak. Sebagai contoh, untuk rover ini sangat penting karena tim-tim yang dari Bumi sekitar 20 menit dan menjawab sebanyak. Dengan demikian, link ke sana dan kembali - 40 menit. Dan jika kita membuat rencana untuk perintah pergerakan bumi, Anda perlu mempertimbangkan ini.

Berhasil mengintegrasikan teknologi visi komputer di video game. Menurut video, Anda dapat membangun model tiga dimensi dari obyek, orang, dan foto pada pengguna dapat mengembalikan tiga dimensi model kota. Dan kemudian berjalan pada mereka.

visi komputer - berbagai agak lebar. Hal ini terkait erat dengan berbagai ilmu-ilmu lainnya. Bagian dari visi komputer Ia menangkap area pengolahan gambar dan kadang-kadang mengalokasikan visi komputer, secara historis.

Analisis, pengenalan pola - jalan ke penciptaan kecerdasan superior

Mari kita periksa konsep-konsep ini secara terpisah.

Image Processing - ini adalah area algoritma, di mana input dan output - gambar, dan kami memiliki dia melakukan sesuatu.

analisis citra - adalah area visi komputer, yang berfokus pada bekerja dengan gambar dua dimensi dan membuat kesimpulan dari ini.

Pola Pengakuan - disiplin matematika abstrak yang mengakui data dalam bentuk vektor. Artinya, di pintu masuk - vektor dan kami memiliki sesuatu untuk dilakukan dengan itu. Di mana vektor adalah, kita tidak begitu penting untuk mengetahui.

visi komputer - itu awalnya adalah untuk mengembalikan struktur gambar dua dimensi. Hari ini daerah ini telah menjadi lebih luas dan dapat diartikan sebagai penerimaan semua benda-benda fisik membuat, berdasarkan gambar. Artinya, itu adalah tugas dari kecerdasan buatan.

Sejalan dengan visi komputer di bidang yang sama sekali berbeda, di geodesi, fotogrametri telah berkembang - pengukuran jarak antara objek gambar dua dimensi.

Robot bisa "melihat"

Dan akhirnya - ini adalah visi mesin. Di bawah visi mesin berarti visi robot. Itu adalah keputusan dari beberapa masalah produksi. Kita dapat mengatakan bahwa visi komputer - adalah salah satu ilmu besar. Ini menggabungkan beberapa bagian ilmu lainnya. Dan ketika visi komputer mendapat aplikasi tertentu, itu berubah menjadi visi mesin.

wilayah visi komputer memiliki massa aplikasi praktis. Hal ini terkait dengan otomatisasi produksi. Pada perusahaan menjadi lebih efisien untuk menggantikan kerja manual dengan mesin. mesin tidak lelah, tidak tidur, dia memiliki jadwal kerja yang tidak teratur, dia bersedia untuk bekerja 365 hari setahun. Jadi, dengan menggunakan mesin bekerja, kita bisa mendapatkan hasil yang dijamin pada waktu tertentu, dan itu cukup menarik. Semua tugas harus digunakan yang jelas untuk sistem visi komputer. Dan ada yang lebih baik daripada melihat hasilnya langsung pada gambar hanya dalam tahap perhitungan.

Di ambang dunia kecerdasan buatan

Ditambah daerah - sulit! Sebuah bagian penting dari otak yang bertanggung jawab untuk penglihatan, dan diyakini bahwa jika Anda mengajarkan komputer Anda untuk "melihat", yang, penuh visi menggunakan komputer, itu adalah salah satu tujuan dari kecerdasan buatan penuh. Jika kita dapat memecahkan masalah pada tingkat manusia, kemungkinan besar pada saat yang sama, kita akan memecahkan masalah AI. Yang sangat baik! Atau tidak sangat baik, jika Anda melihat, "Terminator 2".

Mengapa visi - sulit? Karena citra objek yang sama dapat sangat bervariasi tergantung pada faktor-faktor eksternal. Tergantung pada obyek titik pengamatan terlihat berbeda.

Misalnya, satu dan angka yang sama, diambil dari sudut yang berbeda. Dan apa yang paling menarik dalam gambar mungkin menjadi salah satu mata, dua mata dan setengah. Dan tergantung pada konteks (jika gambar ini dari seorang pria dalam kemeja dengan mata dicat), mata bisa lebih dari dua.

komputer masih tidak mengerti, tapi "melihat"

Faktor lain yang membuat sulit - itu pencahayaan. Adegan yang sama dengan pencahayaan yang berbeda akan terlihat berbeda. ukuran objek dapat bervariasi. Selain itu, objek dari kelas apapun. Bagaimana Anda bisa mengatakan tentang seorang pria yang tinggi badannya dari 2 meter? Tidak ada. pertumbuhan manusia dan mungkin 2,3 m, dan 80 cm. Seperti dengan jenis lain dari objek, bagaimanapun, adalah objek dari kelas yang sama.

Terutama benda hidup menjalani berbagai strain. Rambut orang, atlet, hewan. Melihat gambar kuda berlari, menentukan apa yang terjadi dengan surai mereka dan ekor hanya mungkin. Sebuah objek yang tumpang tindih dalam gambar? Jika Anda mendorong gambar komputer, bahkan mesin paling kuat menemukan kesulitan untuk memberikan keputusan yang tepat.

Tampilan berikutnya - itu menyamar. Beberapa benda, hewan menyamar sebagai lingkungan, dan cukup terampil. Dan tempat yang sama dan mewarnai. Namun demikian, kami melihat mereka, meskipun tidak selalu dari jauh.

Masalah lain - gerakan. Objek dalam gerak yang tak terbayangkan mengalami deformasi.

Banyak objek yang sangat bervariasi. Di sini, misalnya, dalam dua foto di bawah objek dari "kursi".

Dan hal ini Anda bisa duduk. Tapi untuk mengajar mesin, sehingga hal-hal yang berbeda dalam bentuk, warna, bahan, semua adalah obyek "kursi" - sangat sulit. Ini adalah tantangan. Untuk mengintegrasikan metode visi komputer - adalah untuk mengajarkan mesin untuk memahami, menganalisis, berspekulasi.

Integrasi visi komputer di berbagai platform

Massa visi komputer mulai menembus lebih pada tahun 2001, ketika ia menciptakan detektor wajah pertama. Kami membuat dua penulis: Viola, Jones. Ini adalah pertama cepat dan handal algoritma yang cukup, yang menunjukkan kekuatan metode pembelajaran mesin.

Sekarang visi komputer memiliki cukup aplikasi praktis baru - pengakuan dari wajah manusia.

Tapi untuk mengenali pria itu seperti dalam film - di sudut acak, kondisi pencahayaan yang berbeda - tidak mungkin. Tapi untuk memecahkan masalah, atau satu yang orang yang berbeda dengan pencahayaan yang berbeda atau dalam pose yang berbeda, sama seperti dalam foto di paspor, adalah mungkin dengan tingkat kepercayaan yang tinggi.

persyaratan pas foto sebagian besar disebabkan oleh fitur dari algoritma pengenalan wajah.

Misalnya, jika Anda memiliki paspor biometrik, di beberapa bandara modern, Anda dapat menggunakan sistem kontrol paspor otomatis.

masalah yang belum terpecahkan visi komputer - kemampuan untuk mengenali teks

Mungkin seseorang menggunakan sistem OCR. Salah satunya - Reader Baik, sangat populer di sistem RuNet. Ada banyak bentuk di mana Anda mengisi data, mereka sempurna dipindai, informasi tersebut dikenali oleh sistem yang sangat baik. Tapi dengan teks dalam gambar situasinya jauh lebih buruk. Masalah ini masih tetap belum terpecahkan.

Permainan melibatkan visi komputer, menangkap gerakan

Pisahkan area yang luas - adalah penciptaan model tiga dimensi dan motion capture (yang cukup berhasil dilaksanakan di game komputer). Program pertama, yang menggunakan visi komputer - sistem interaksi dengan komputer menggunakan gerakan. Ketika diciptakan itu banyak hal yang terbuka.

Algoritma ini dirancang cukup sederhana, tetapi untuk mengkonfigurasi butuh untuk membuat generator gambar sintetik orang untuk mendapatkan satu juta gambar. Superkomputer dengan mereka untuk memilih parameter dari algoritma, yang ia sekarang bekerja dengan baik.

Itu juta gambar dan minggu waktu dihitung superkomputer mungkin untuk menciptakan suatu algoritma yang mengkonsumsi 12% dari kapasitas satu prosesor dan memungkinkan seseorang untuk merasakan posisi secara real time. Ini sistem Microsoft Kinect (2010).

Search for gambar dengan konten memungkinkan Anda untuk meng-upload foto ke sistem, dan hasil itu akan memberikan semua gambar dengan konten yang sama dan terbuat dari sudut yang sama.

Contoh visi komputer: tiga dimensi dan peta dua dimensi sekarang sedang dibuat dengan itu. Maps untuk mobil navigasi secara teratur diperbarui sesuai dengan DVR.

Ada database dengan miliaran foto geotag. Dengan men-download gambar dalam database, Anda dapat menentukan di mana itu dibuat, dan bahkan dengan beberapa perspektif. Tentu saja, asalkan tempat ini cukup bahwa populer pada satu waktu para wisatawan dan membuat sejumlah foto dari daerah telah ada.

robot di mana-mana

Robotika pada saat ini, di mana-mana, tanpa itu dengan cara apapun. Sekarang ada kendaraan yang memiliki kamera khusus yang mengenali pejalan kaki dan tanda-tanda jalan untuk mengirimkan perintah ke driver (ini dengan cara program komputer untuk melihat, membantu pengendara mobil). Dan ada kendaraan robot sepenuhnya otomatis, tetapi mereka tidak bisa hanya mengandalkan pada sistem kamera video tanpa menggunakan sejumlah besar informasi tambahan.

kamera modern - ini adalah kamera obscura analog

Mari kita bicara tentang citra digital. kamera digital modern diatur pada prinsip kamera obscura. Hanya bukannya lubang melalui mana cahaya memasuki balok dan diproyeksikan ke dinding belakang ruang sirkuit subjek, kami memiliki sistem optik khusus yang disebut lensa. objek adalah untuk mengumpulkan sinar besar dan mengubahnya sehingga semua sinar melewati titik maya untuk mendapatkan proyeksi dan membentuk sebuah gambar pada film atau matriks.

kamera digital modern (matrix) terdiri dari unsur-unsur individu - piksel. Setiap pixel dapat mengukur energi cahaya yang insiden pada total pixel, dan mengeluarkan nilai output tunggal. Oleh karena itu, dalam kamera digital, kita mendapatkan bukannya pengukuran set cahaya kecerahan gambar, terperangkap dalam satu piksel - komputer bidang pandang. Karena itu, ketika gambar yang kita lihat tidak mengalir garis dan kontur yang jelas, dan kotak kotak-kotak berwarna dalam warna berbeda - piksel.

Di bawah ini Anda melihat gambar digital pertama di dunia.

Tapi dalam gambar ini bukan? Warna. Apa warna?

persepsi psikologis warna

Warna - ini adalah apa yang kita lihat. Warna satu dan hal yang sama bagi manusia dan kucing akan berbeda. Karena kita (manusia) dan sistem optik hewan - visi yang berbeda. Oleh karena itu, warna - itu kualitas psikologis visi kami yang terjadi ketika mengamati objek dan cahaya. Dan tidak properti fisik dari objek dan cahaya. Warna - merupakan hasil dari interaksi dari komponen ringan, dan adegan dari sistem visual kita.

Pemrograman Visi Komputer di Python menggunakan perpustakaan

Jika Anda telah memutuskan untuk terlibat secara serius dalam studi visi komputer, harus segera mempersiapkan sejumlah kesulitan, ilmu ini bukan yang paling mudah dan menyembunyikan sejumlah perangkap. Tapi "Pemrograman Komputer Vision pada Python" kepengarangan dari Jan Erik Solema - sebuah buku yang menguraikan semua bahasa yang paling sederhana. Di sini Anda akan berkenalan dengan metode pengakuan dari berbagai objek dalam 3D, belajar untuk bekerja dengan gambar stereo, virtual reality dan banyak aplikasi lainnya dari visi komputer. Dalam buku ini cukup banyak contoh di Python. Tapi penjelasan disajikan, sehingga untuk berbicara, umum, agar tidak membebani terlalu banyak penelitian dan data keras. Bekerja cocok untuk mahasiswa, amatir, dan penggemar. Mendownload buku ini dan orang lain tentang visi komputer (pdf format) dapat di jaringan.

Saat ini, ada perpustakaan open source algoritma visi komputer dan pengolahan citra dan algoritma numerik OpenCV. Hal ini diimplementasikan pada kebanyakan bahasa pemrograman modern, adalah open source. Jika kita berbicara tentang visi komputer, Python menggunakan sebagai bahasa pemrograman, juga memiliki dukungan dari perpustakaan, di samping itu terus berkembang dan memiliki komunitas yang besar.

Perusahaan "Microsoft" menyediakan layanan Api-bisa melatih jaringan saraf untuk bekerja dengan gambar orang. Ada juga kesempatan untuk menerapkan visi komputer, Python menggunakan sebagai bahasa pemrograman.

Komputer, Teknologi informasi

Visi komputer modern. Tugas dan teknologi visi komputer. Pemrograman Visi Komputer di Python

Apa visi komputer? Ini adalah kemampuan untuk "melihat" komputer Anda

image kernel semantik

Jarak dan panjang dalam visi komputer

Analisis, pengenalan pola - jalan ke penciptaan kecerdasan superior

Robot bisa "melihat"

Di ambang dunia kecerdasan buatan

komputer masih tidak mengerti, tapi "melihat"

Integrasi visi komputer di berbagai platform

masalah yang belum terpecahkan visi komputer - kemampuan untuk mengenali teks

Permainan melibatkan visi komputer, menangkap gerakan

robot di mana-mana

kamera modern - ini adalah kamera obscura analog

persepsi psikologis warna

Pemrograman Visi Komputer di Python menggunakan perpustakaan

Similar articles

Komputer

Komputer

Komputer

Komputer

Komputer

Komputer

Trending Now

Pengajaran dgn tenaga sendiri

Berita dan Masyarakat

Bisnis

Teknologi

Kesehatan

Kesehatan

Newest

Kecantikan

Kesehatan

Iklan

Rumah dan Keluarga

Hobi

Formasi