您好！歡迎登錄水木春錦資本管理有限公司官方網(wǎng)站！

首頁
關(guān)于我們
關(guān)于我們

水木春錦資本管理有限公司（簡(jiǎn)稱水木資本），成立于2005年，總部位于北京。作為一家專注于私募股權(quán)投資的基金管理、運(yùn)營(yíng)、投資業(yè)務(wù)的專業(yè)金融機(jī)構(gòu)，水木春錦資本已在中國(guó)證券投資基金業(yè)協(xié)會(huì)完成備案，備案編號(hào)為P1063913。
投資案例
新聞中心
新聞中心

公司于2018年10月獲第二屆博鰲企業(yè)論壇頒發(fā)“2018年度私募股權(quán)投機(jī)構(gòu)”。
聯(lián)系我們
加入我們

投資案例

以人工智能產(chǎn)業(yè)投資為核心，投資一批具有前景的未來型企業(yè)

已投資訊 | 達(dá)闥聯(lián)手中山大學(xué)打造具身智能模擬器和新基準(zhǔn)，讓機(jī)器人更智能

發(fā)布時(shí)間：

2023-06-20 18:00

來源：

去年年底，ChatGPT橫空出世，在全球科技浪潮中掀起了驚濤駭浪，隨后，各個(gè)科技公司都開始著手打造自己的大模型，帶來各行各業(yè)效率的革命和體驗(yàn)的升級(jí)。盡管大規(guī)模語言模型（LLMs，Large Language Models）可以進(jìn)行復(fù)雜的語言生成和對(duì)話交流，但ChatGPT多模態(tài)感知、長(zhǎng)期的運(yùn)動(dòng)規(guī)劃和行為交互能力有限，還不是人類理想的智能體。“具身智能”+“機(jī)器人”有望成為AI的下一個(gè)潮水涌動(dòng)的方向。

近年來，達(dá)闥在具身智能領(lǐng)域持續(xù)加大研發(fā)投入，發(fā)布了海睿AGI平臺(tái)和首個(gè)機(jī)器人智能領(lǐng)域的多模態(tài)認(rèn)知大模型——RobotGPT。達(dá)闥還與中山大學(xué)智能工程學(xué)院副教授、博士生導(dǎo)師梁小丹（國(guó)家萬人青拔人才）展開緊密合作，共同探索具身智能前沿科技：為機(jī)器人開發(fā)非常真實(shí)的模擬環(huán)境，創(chuàng)建兩個(gè)基準(zhǔn)測(cè)試，助力機(jī)器人在自主推理和導(dǎo)航方面的研究更快地取得進(jìn)展。

“具身智能”（Embodied Intelligence）意指有身體并支持物理交互的智能體，標(biāo)桿產(chǎn)品是人形機(jī)器人。實(shí)現(xiàn)具身智能是指讓機(jī)器能夠像人一樣擁有身體感知、交互和行動(dòng)的能力，這種能力使機(jī)器能夠更加自然地與物理世界進(jìn)行交互。但是，實(shí)現(xiàn)具身智能面臨著以下困難和挑戰(zhàn)：

1.缺乏工業(yè)級(jí)真實(shí)感的機(jī)器人操作模擬器，缺少高質(zhì)量具身智能訓(xùn)練所需的海量數(shù)據(jù)

通過與模擬環(huán)境進(jìn)行交互生成大量豐富的多樣的訓(xùn)練數(shù)據(jù)，并進(jìn)行端到端強(qiáng)化學(xué)習(xí)和模型學(xué)習(xí)是具身智能訓(xùn)練的常用手段，當(dāng)前業(yè)界的模擬器常常沒有將智能機(jī)器人制造技術(shù)考慮在內(nèi)，也沒有足夠的關(guān)注真實(shí)機(jī)器人應(yīng)用的兼容性。這導(dǎo)致研究者在這種環(huán)境中開發(fā)的控制技術(shù)常常難以在真實(shí)場(chǎng)景中得到應(yīng)用。此外復(fù)雜多變的現(xiàn)實(shí)環(huán)境也給具身智能有效地理解和解析環(huán)境信息帶來了巨大的挑戰(zhàn)。

2.機(jī)器人(智能體)難以理解和執(zhí)行復(fù)雜且不明確的人類自然語言指令，同時(shí)缺乏機(jī)器人操作相關(guān)的漸進(jìn)式推理任務(wù)基準(zhǔn)測(cè)試

在具身智能研究中，人類的語言指令往往復(fù)雜多樣、模棱兩可、隨意性強(qiáng)，機(jī)器難以猜測(cè)和推理人類的真實(shí)意圖。比如我們對(duì)機(jī)器人說：“我有點(diǎn)渴，請(qǐng)給我拿點(diǎn)喝的”，如下圖所示，機(jī)器人需要充分理解人的意圖和場(chǎng)景中每個(gè)對(duì)象概念所隱含的功能，才能做出準(zhǔn)確的判斷。因此，考慮如何讓機(jī)器人理解和執(zhí)行復(fù)雜和模糊的人類自然語言指令是體現(xiàn)具身智能研究的關(guān)鍵挑戰(zhàn)之一。

3.缺乏面向開放域零樣本視覺語言導(dǎo)航的多任務(wù)基準(zhǔn)測(cè)試

在具身智能領(lǐng)域，面對(duì)開放域零樣本視覺語言導(dǎo)航多任務(wù)基準(zhǔn)測(cè)試的明顯缺失，主要是因?yàn)椋悍抡嬲鎸?shí)性不足，真實(shí)的開放環(huán)境下因素變化多端，比如突然走過來的行人；零樣本視覺語言導(dǎo)航模型需要處理其以前未曾遇到過的環(huán)境和任務(wù)，這要求基準(zhǔn)測(cè)試的環(huán)境盡可能地接近現(xiàn)實(shí)；相較于封閉環(huán)境，開放環(huán)境中的元素更加復(fù)雜且不斷變化，現(xiàn)有的自動(dòng)標(biāo)注方法往往無法應(yīng)對(duì)。

為了有效應(yīng)對(duì)上述挑戰(zhàn)，我們需要追求更為真實(shí)的仿真環(huán)境，開發(fā)更為有效的數(shù)據(jù)收集和標(biāo)注策略，制定更為全面的評(píng)估指標(biāo)。因此，達(dá)闥積極與中山大學(xué)展開了深度合作，在以下三方面取得了階段性成果：

1.研發(fā)并開放工業(yè)級(jí)真實(shí)感的機(jī)器人具身智能訓(xùn)練工具（HARIX RDK）

為了方便、公正地比較機(jī)器人在不同基線模型下理解和執(zhí)行人類自然語言指令的成功率，我們構(gòu)建了高度逼真的場(chǎng)景模擬與機(jī)器人具身智能訓(xùn)練工具（HARIX RDK），用于機(jī)器人具身智能的研究，特點(diǎn)有：①有真實(shí)光照，能夠高擬真產(chǎn)生照明陰影、鏡面反射、亮斑等。②仿真環(huán)境中加入了人類，這些人類或處于通道中阻擋路徑或走入機(jī)器人行進(jìn)路線。③環(huán)境可以通過讀取底層數(shù)據(jù)實(shí)現(xiàn)對(duì)各類物體進(jìn)行細(xì)致的語義分割標(biāo)注，便于后續(xù)構(gòu)建基準(zhǔn)。④HARIX RDK可支持達(dá)闥公司研發(fā)的多種類型的機(jī)器人。

2.構(gòu)建了機(jī)器人操作相關(guān)的漸進(jìn)式推理任務(wù)基準(zhǔn)測(cè)試，促進(jìn)機(jī)器人漸進(jìn)式推理研究的快速發(fā)展

為方便分析和評(píng)估大語言模型在機(jī)器人操作中的應(yīng)用，我們創(chuàng)建了一個(gè)通用的框架，如下圖所示，主要由三部分組成：自動(dòng)場(chǎng)景生成、指令生成和機(jī)器人操縱。自動(dòng)場(chǎng)景生成負(fù)責(zé)生成豐富多樣的場(chǎng)景供agent進(jìn)行訓(xùn)練和測(cè)試。由于獲取大規(guī)模復(fù)雜且高質(zhì)量的人類自然語言指令既昂貴又困難，為此我們還設(shè)計(jì)了一個(gè)使用ChatGPT模擬人類自然語言指令生成的模塊，為機(jī)器人操作提供自然語言指令。最后，通過向機(jī)器人輸入生成的視覺場(chǎng)景和自然語言指令，控制機(jī)器人進(jìn)行相應(yīng)的操作。

Level 1任務(wù)用于評(píng)估機(jī)器人的抓取能力。Level 2任務(wù)用于評(píng)估機(jī)器人在多目標(biāo)環(huán)境中的識(shí)別和抓取能力。Level 3任務(wù)側(cè)重于評(píng)估機(jī)器人理解簡(jiǎn)單的人類自然語言的能力。Level 4任務(wù)主要用于評(píng)估機(jī)器人理解復(fù)雜、模糊的人類自然語言指令和推理人類意圖的能力。

3.構(gòu)建了面向開放域零樣本視覺語言導(dǎo)航的多任務(wù)基準(zhǔn)測(cè)試，促進(jìn)機(jī)器人視覺語言導(dǎo)航研究的快速發(fā)展

為了促進(jìn)開放式視覺語言導(dǎo)航的研究，我們在HARIX RDK中構(gòu)建了MO-VLN，一個(gè)面向開放域零樣本視覺語言導(dǎo)航的多任務(wù)基準(zhǔn)測(cè)試。MO-VLN專注于零樣本視覺與語言導(dǎo)航，涉及根據(jù)語言指令導(dǎo)航到特定的目標(biāo)對(duì)象、抽象對(duì)象和特定位置。具體來說，MO-VLN分為四個(gè)任務(wù)，如下圖所示，即給定類別的對(duì)象導(dǎo)航、給定簡(jiǎn)單指令的目標(biāo)導(dǎo)向?qū)Ш健⑼耆橄笾噶詈桶床襟E跟隨指令。

在HARIX RDK的仿真場(chǎng)景中讓智能體自主探索、結(jié)合其視覺自動(dòng)構(gòu)建拓?fù)湔Z義地圖，將開放詞匯模型和大語言模型結(jié)合進(jìn)行指令和場(chǎng)景理解，預(yù)測(cè)目標(biāo)位置并逐步移動(dòng)至目標(biāo)位置，如下圖所示：

這里，我們利用預(yù)訓(xùn)練的視覺-語言模型如GLIP/ Grounding DINO進(jìn)行物體定位。在檢測(cè)到可能的物體位置后，我們將它們投影到語義地圖上。在環(huán)境探索上，我們只考慮zero-shot策略，如基于常識(shí)知識(shí)的探索。運(yùn)用GLIP檢測(cè)觀察并獲取關(guān)于周圍環(huán)境的信息，能力較強(qiáng)的LLM可以根據(jù)其常識(shí)知識(shí)和檢測(cè)結(jié)果更準(zhǔn)確地預(yù)測(cè)下一個(gè)可能的位置。我們還讓GPT-4在給定檢測(cè)到的周圍物體和區(qū)域的情況下完成常識(shí)推理。

項(xiàng)目網(wǎng)站：

https://necolizer.github.io/RM-PRT

https://mligg23.github.io/MO-VLN-Site

此次研究所用到的機(jī)器人產(chǎn)品是達(dá)闥自主研發(fā)的Cloud Ginger 1.0——柔美人形智能服務(wù)機(jī)器人，具有精準(zhǔn)的視覺抓取能力、全方位的聽、說、看、動(dòng)等融合智能能力；開發(fā)平臺(tái)使用的是達(dá)闥HARIX RDK機(jī)器人開發(fā)套件，可以實(shí)現(xiàn)機(jī)器人在智能語音、行為控制、動(dòng)作編輯、移動(dòng)導(dǎo)航等方面的能力開發(fā)，并完成數(shù)字孿生環(huán)境和真實(shí)機(jī)器人的虛實(shí)同步驗(yàn)證。

校企合作是促進(jìn)創(chuàng)新和培養(yǎng)人才的有效機(jī)制，一直以來，達(dá)闥都很重視和高校的深度合作，近年來相繼與復(fù)旦大學(xué)、同濟(jì)大學(xué)、上海交大、上海大學(xué)、東北大學(xué)、安徽大學(xué)、西安理工大學(xué)、山東大學(xué)等多所高校，在人工智能課程設(shè)置、技術(shù)研發(fā)、人才培養(yǎng)等方面聯(lián)合開展了多項(xiàng)合作，促進(jìn)了學(xué)術(shù)研究與市場(chǎng)前沿的無縫結(jié)合，全方位發(fā)掘了云端機(jī)器人背后的價(jià)值及潛能。在達(dá)闥和中山大學(xué)的合作下，具身智能正以強(qiáng)勁的勢(shì)頭邁向新的里程碑。相信隨著更多科學(xué)家和工程師的不懈努力，我們將迎來通用人工智能的嶄新時(shí)代，智能體與人類在互動(dòng)和合作中共同創(chuàng)造美好未來。

已投資訊 | 美通香薰當(dāng)選西湖區(qū)慈善聯(lián)合總會(huì)副會(huì)長(zhǎng)，徐力董事長(zhǎng)榮獲慈善獎(jiǎng)先進(jìn)個(gè)人稱號(hào)

已投資訊 | 奇點(diǎn)能源驚艷亮相2023 中國(guó)（江蘇）國(guó)際儲(chǔ)能大會(huì)

已投資訊 | 美通香薰當(dāng)選西湖區(qū)慈善聯(lián)合總會(huì)副會(huì)長(zhǎng)，徐力董事長(zhǎng)榮獲慈善獎(jiǎng)先進(jìn)個(gè)人稱號(hào)

已投資訊 | 奇點(diǎn)能源驚艷亮相2023 中國(guó)（江蘇）國(guó)際儲(chǔ)能大會(huì)

快速導(dǎo)航

在線留言

掃一掃
即可訪問微信公眾號(hào)

京公網(wǎng)安備 11010502051444號(hào) 網(wǎng)站建設(shè)：中企動(dòng)力北京 SEO標(biāo)簽營(yíng)業(yè)執(zhí)照

无码中文人妻在线一区二区三区|亚洲丶国产丶欧美一区二区三区|中文字幕亚洲乱码熟女在线萌芽|亚洲综合欧美在线一区在线播放

關(guān)于我們

新聞中心

投資案例

已投資訊 | 達(dá)闥聯(lián)手中山大學(xué)打造具身智能模擬器和新基準(zhǔn)，讓機(jī)器人更智能