Ant Group Open-Sources LingBot-Depth: Модел за пространствено възприемане от следващо поколение, базиран на моделиране на маскирана дълбочина

Ant Group Open-Sources LingBot-Depth: Модел за пространствено възприемане от следващо поколение, базиран на моделиране на маскирана дълбочина

Наскоро Robbyant, въплътената интелигентна компания на Ant Group, официално отвори своя високопрецизен модел на пространствено възприятие: LingBot-Depth.

LingBot-Depth е модел за завършване на дълбочина за сценарии от реалния свят, използващ RGB-Depth данни, уловени и валидирани с бинокулярни 3D камери от серия Orbbec Gemini 330, и обучени с използване на данни за дълбочина, директно извеждани от чипове на машина за дълбочина. Моделът трансформира непълни и засегнати от шума данни от сензори за дълбочина във висококачествени 3D измервания в реален мащаб, подобрявайки възприемането на дълбочината на околната среда и 3D пространственото разбиране, предоставяйки на роботи, автономни превозни средства и други интелигентни терминали с по-точна и надеждна 3D визия.

Основни акценти на LingBot-Depth:

  1. Точно и стабилно възприемане на дълбочина, базирано на камера
  2. Отлични 3D и 4D възможности за възприемане на околната среда
  3. Сръчни операции за хващане на прозрачни и отразяващи предмети

Експерименталните резултати показват, че LingBot-Depth превъзхожда индустриалните камери за дълбочина от най-високо ниво както по отношение на точността на дълбочината, така и по отношение на покритието на пикселите. При бенчмаркове като NYUv2 и ETH3D, той постига най-съвременни резултати в завършване на дълбочината, оценка на монокулярната дълбочина и стерео съвпадение, поддържайки времева съгласуваност на ниво видео без изрично времево моделиране.

Моделът е професионално сертифициран от Orbbec Gemini Depth Vision Lab, водещ в индустрията по прецизност, стабилност и адаптиране към сложни сценарии.

IMG_5058.jpeg

При предизвикателни задачи за завършване на рядка дълбочина LingBot-Depth превъзхожда множество масови модели. Тестовете надолу по веригата допълнително показват, че моделът научава подравнени латентни представяния между модалности RGB и дълбочина, което позволява стабилно роботизирано хващане на прозрачни и отразяващи обекти.

Екипът за разработка въведе маскирано моделиране на дълбочината (MDM), където части от данните за дълбочината са умишлено маскирани по време на обучение, принуждавайки модела да предвижда липсващи стойности на дълбочината само от RGB. С течение на времето моделът научава съответствието между външния вид и геометрията, като прави извод за приблизителното разстояние на обект от визуалния му вид.

IMG_5059.jpeg

Моделът, кодът и техническият доклад на LingBot-Depth са с напълно отворен код:

Източник: OSChina

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта