กล้องตาบอด: การแสดงภาพฉากจากเสียงเพียงอย่างเดียว

กล้องตาบอด: การแสดงภาพฉากจากเสียงเพียงอย่างเดียว

โหนดต้นทาง: 2131001
<img data-attachment-id="599969" data-permalink="https://hackaday.com/2023/06/12/blind-camera-visualizing-a-scene-from-its-sounds-alone/blind_camera_street_visualization/ " data-orig-file="https://platoaistream.net/wp-content/uploads/2023/06/blind-cam-visualizing-a-scene-from-its-sounds-alone-1.jpg" ข้อมูล- orig-size="1405,1405" data-comments-opened="1" data-image-meta="{"aperture":0", "credit": "" กล้อง "", "คำบรรยายภาพ" ///"created_timestamp"" "0" "ลิขสิทธิ์" "" ความยาวโฟกัส "0" "iso" "0" "ความเร็วชัตเตอร์" "0" "ชื่อ" " ,"orientation///0"}" data-image-title="blind_camera_street_visualization" data-image-description data-image-caption="

การสร้างภาพโดย Blind Camera ตามเสียงที่บันทึกไว้และชุดข้อมูลการฝึกอบรมสำหรับโครงข่ายประสาทเทียม (เครดิต: Diego Trujillo Pisanty)

” data-medium-file=”https://platoaistream.net/wp-content/uploads/2023/06/blind-camera-visualizing-a-scene-from-its-sounds-alone.jpg” ข้อมูลขนาดใหญ่- ไฟล์ =”https://platoaistream.net/wp-content/uploads/2023/06/blind-camera-visualizing-a-scene-from-its-sounds-alone-1.jpg?w=625″ decoding=” async” กำลังโหลด =”ขี้เกียจ” class =”ขนาดกลาง wp-image-599969″ src =”https://platoaistream.net/wp-content/uploads/2023/06/blind-camera-visualizing-a-scene- from-its-sounds-alone.jpg” alt=”การแสดงภาพโดย Blind Camera ตามเสียงที่บันทึกไว้และชุดข้อมูลการฝึกอบรมสำหรับโครงข่ายประสาทเทียม (เครดิต: Diego Trujillo Pisanty)” width=”400″ height=”400″ srcset=”https://platoaistream.net/wp-content/uploads/2023/06/blind-camera-visualizing-a-scene-from -its-sounds-alone-1.jpg 1405w, https://platoaistream.net/wp-content/uploads/2023/06/blind-cam-visualizing-a-scene-from-its-sounds-alone-1 jpg?resize=250,250 250w, https://platoaistream.net/wp-content/uploads/2023/06/blind-cam-visualizing-a-scene-from-its-sounds-alone-1.jpg?resize=400,400 400w, https://platoaistream.net/wp-content/uploads/2023/06/blind-camera-visualizing-a-scene-from-its-sounds-alone-1.jpg?resize=625,625 625w” ขนาด=” (ความกว้างสูงสุด: 400px) 100vw, 400px”>

การสร้างภาพโดย Blind Camera ตามเสียงที่บันทึกไว้และชุดข้อมูลการฝึกอบรมสำหรับโครงข่ายประสาทเทียม (เครดิต: Diego Trujillo Pisanty)

เมื่อเราเห็นรูปถ่ายหรือรูปถ่ายของฉากหนึ่งๆ เรามักจะนึกภาพออกว่าเสียงใดที่มาพร้อมกับเสียงนั้น แต่จะเป็นอย่างไรหากกลับด้าน และเราต้องจินตนาการถึงฉากที่ประกอบกับเสียง เราจะเข้าใกล้แค่ไหนในการสร้างฉากขึ้นมาใหม่ในความคิดของเรา โดยปราศจากอคติของการเลี้ยงดูและภูมิหลังของเราที่ทำให้สิ่งนี้กลายเป็นงานที่แทบจะเป็นไปไม่ได้ นี่คือจุดเน้นของโครงการโดย [ดีเอโก้ ทรูจิลโล ปิซานตี] ที่เขาเรียกว่า Blind Camera.

จากข้อมูลวิดีโอที่บันทึกในเม็กซิโกซิตี้ โครงข่ายประสาทเทียมที่สร้างขึ้นโดยใช้ Tensorflow 3 ได้รับการฝึกโดยใช้ GPU RTX 3080 บนชุดข้อมูลที่มีเฟรมจากวิดีโอเหล่านี้ซึ่งเชื่อมโยงกับเสียง ผลที่ตามมาคือ เมื่อโครงข่ายประสาทที่ได้รับการฝึกฝนมาแสดงด้วยโปรไฟล์เสียง ("ภาพถ่าย") ก็จะพยายามสร้างฉากขึ้นใหม่ตามอินพุตนี้และโมเดลของมัน ซึ่งทั้งหมดได้รับการปรับให้ทำงานบนเครือข่ายเดียว บอร์ด Raspberry Pi 3B

อย่างไรก็ตาม เนื่องจากตัวแบบทั้งหมดรู้ว่าเป็นภาพและเสียงของเม็กซิโกซิตี้ ภาพที่ได้จะถูกนำเสนอเป็นส่วนประกอบของฉากจากเมืองนี้เสมอ อย่างที่ [ดิเอโก] พูดไว้: สำหรับอุปกรณ์ทุกอย่างคือเมือง เป็นวิธีที่ดีในการแสดงให้เห็นว่าโครงข่ายประสาทเทียมไม่เพียงถูกจำกัดโดยข้อมูลการฝึกอบรมเท่านั้น แต่มนุษย์เราก็เช่นกัน

[เนื้อหาฝัง]

ประทับเวลา:

เพิ่มเติมจาก แฮ็ควัน