大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか？ [すらいむ★]

0001 すらいむ ★ 2025/03/26(水) 22:28:09.15

大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか？

　多くの人々は幼少期から地図の読み取り方を身につけており、地下鉄構内の地図を見て目指す出口を探したり、遊園地の地図を見て乗りたいアトラクションへの行き方を調べたり、ロードマップを見て高速道路の入り口を見つけたりすることができます。
　「大規模視覚言語モデル(LVLM)も人間のように地図を読み取って適切なルートを見つけられるのか」という疑問に取り組むため、研究者らが「MapBench」という新たなベンチマークを考案しました。

　[2503.14607] Can Large Vision Language Models Read Maps Like a Human?
　https://arxiv.org/abs/2503.14607

（以下略、続きはソースでご確認ください）

Gigazine 2025年03月26日 17時00分
https://gigazine.net...ge-models-read-maps/

2 ID:6QzYkMeb

0002 名無しのひみつ 2025/03/27(木) 06:06:16.37

＞「注目すべきはLVLMの性能が理論的に最適なナビゲーションを大きく下回っていることです。これは、マルチモーダルな
情報理解、空間推論、複雑な長期的計画下での意思決定における重要な限界を露呈しています」と述べ、
まだLVLMの地図読み取り能力は人間に追いついていないとの見解を示しました。

やっぱり強化学習とかでサポートしないとダメか？

2 ID:blKa6tiM

0003 名無しのひみつ 2025/03/27(木) 06:32:17.16

>>1
>>「MapBench

これができたことによりAIテストに使用可能になるから

これから一気に飛躍することを意味している

点数を付けれなかったことに点数をつけれるようになったことを意味している

2 ID:sQCbpxY9(1/2)

0004 名無しのひみつ 2025/03/27(木) 06:33:52.54

>>3
人間でいうところの

中間テストや期末テストができる

AI作成論文が通過したのでレポートの書き方の訓練はすでに完成しているようですので次の段階ですか

ID:sQCbpxY9(2/2)

0005 名無しのひみつ 2025/03/27(木) 07:02:48.45

主要なAIモデルがAGIテストで全滅：汎用人工知能の高い壁
https://nazology.kus...o.jp/archives/173968

ARC-AGI-2という新たなAIに対するテストが誕生しました

ID:n67lAQK7

0006 名無しのひみつ 2025/03/27(木) 07:14:13.35

画像や動画から主要な3D情報を爆速で自動抽出できる「VGGT」が登場
https://gigazine.net...rounded-transformer/

1 ID:70H8IBlj(1/3)

0007 名無しのひみつ 2025/03/27(木) 07:14:38.29

>>6
前略
>>VGGTは一度の処理で画像から直接、カメラの位置や向き、物体の奥行き、3D空間での点の位置などを素早く計算できます。
中略
>>VGGTと、DUSt3RやFast3Rで、2枚の画像から抽出した3D情報を比較すると、建物の構造をより正確に再現できていることがわかります。
中略
>>研究チームは「3Dコンピュータビジョン分野での更なる研究を促進し、コミュニティ全体に利益をもたらすこと」を目的とするため、VGGTのコードとモデルをGitHubで公開しています。

ID:70H8IBlj(2/3)

0008 名無しのひみつ 2025/03/27(木) 07:16:08.64

「ChatGPT」、4oモデルによる画像生成が可能に--無料プランでも
https://japan.cnet.com/article/35230961/

ID:70H8IBlj(3/3)

0009 名無しのひみつ 2025/03/27(木) 07:17:51.21

こういうのってまったく意味が無い
最適ルートについてはスパコンとかで総当り方式が確立している

ちなみに宅配便の最適ルートをAIでうんぬんはキレイに失敗w

ID:xWarTFOU

0010 名無しのひみつ 2025/03/27(木) 07:20:47.46

SynchronとNVIDIA、“脳とコンピューターをつなぐ”技術を推進 [すらいむ★]
https://egg.5ch.net/...enceplus/1742995633/

1 ID:JdJ5DU8X(1/3)

0011 名無しのひみつ 2025/03/27(木) 07:21:43.23

>>10

AIと接続できるけれどAIと接続したら不思議な世界

ID:JdJ5DU8X(2/3)

0012 名無しのひみつ 2025/03/27(木) 07:24:29.65

【AI】DeepSeek-V3のアップデート版はあらゆるテストで高速化、「最高の非推論モデルになった」との意見も [すらいむ★]
https://egg.5ch.net/...enceplus/1742913650/

ID:JdJ5DU8X(3/3)

0013 名無しのひみつ 2025/03/27(木) 07:36:47.65

地図は人間が見るようにまとめたもの
まとめる前にデータは地図でないところにある
だからそもそもは別のデータ形式で与えるのが効率的

他に方法がないときには地図という形で雑多な情報が混合したものから抽出するということはチャレンジとしてはある

それをビジョンAIにやらせるのか
生成AIのイメージ解読でやらせるのか
それは同じものを使ってるのか
は知らないけどね

ID:/Dk9ao7h

0014 名無しのひみつ 2025/03/27(木) 07:39:56.32

GPT-4oにサマってもらった

論文「大型視覚言語モデルは人間のように地図を読めるか？」では、大型視覚言語モデル（VLM）の地図解釈と理解の能力を調査し、そのパフォーマンスを人間の能力と比較しています。この研究では、これらのモデルが空間情報、シンボル、地図上のさまざまな要素の関係をどの程度理解できるかを評価しています。

主な調査結果には、VLM は視覚情報とテキスト情報の処理において優れたスキルを発揮する一方で、文脈の理解や暗黙の情報の推測など、人間が直感的に理解できる地図の読み取りの特定の側面では依然として苦労していることが含まれています。この調査では、地図解釈における VLM の可能性を強調していますが、人間のような理解に匹敵するために対処する必要がある制限も指摘しています。全体として、この研究では、これらのモデルをさらに改良して空間推論と文脈理解を強化することの重要性を強調しています。

ID:c7x/jur3

0015 名無しのひみつ 2025/03/27(木) 07:47:40.68

Vision AI と Vision-Language Models (VLM) の主な違いは、その焦点と機能にあります。

1. 焦点
- Vision AIは主に視覚データ (画像と動画) の分析と解釈。物体検出、画像分類、顔認識、シーン理解などが含まれます。Vision AI モデルは通常、言語を組み込むことなく視覚コンテンツを理解するようにトレーニングされます。
- Vision-Language Models (VLM)は視覚情報とテキスト情報の両方を統合し、両方のモダリティを含むコンテンツを理解および生成できるようにします。VLM は、画像のキャプションの生成や視覚コンテンツに関する質問への回答など、画像とテキストの関係を理解する必要があるタスクを実行するように設計されています。

2. 機能
- Vision AIは視覚データのみから特徴と洞察を抽出することに重点を置いています。画像の深い理解を必要とするタスクに優れていますが、本質的に言語を処理または生成することはありません。

- VLMはマルチモーダル推論が可能で、視覚要素とテキスト要素の両方を含む応答を解釈して生成できます。これにより、コンテキストや画像と言語の関係を理解する必要がある、より複雑なタスクを実行できます。

要約すると、Vision AI は視覚データ分析に重点を置いていますが、VLM は視覚と言語のギャップを埋め、両方のモダリティにわたるより豊かなインタラクションと理解を可能にします。

ID:JpBwZW8N

0016 名無しのひみつ 2025/03/27(木) 07:56:44.96

>>2
強化学習なんですが

ID:QvUWE5E3

0017 名無しのひみつ 2025/03/27(木) 08:21:21.59

DeepSeek、最新モデルでClaude 3.7 Sonnet超え
https://ascii.jp/ai/
中国DeepSeekは3月25日
中略
>>　ベンチマークはあくまで参考値に過ぎないが、DeepSeek-V3-0324が、無料で使えるAIモデルのなかでトップクラスの性能をもつことは確かだ（「OpenRouter」を通じて無料で利用できる）。

ID:xll3z0ya

0018 名無しのひみつ 2025/03/27(木) 08:28:37.42

「Claude 3.7 Sonnet」と「Claude Code」が登場、OpenAI o1やDeepSeek-R1を超える性能で「ポケモン」のジムリーダーを3人倒すことに成功
https://gigazine.net...c-claude-3-7-sonnet/

ID:uUk4Jt6p

0019 名無しのひみつ 2025/03/27(木) 08:32:42.18

検閲なしのチャットAI「FreedomGPT」はChatGPTのような安全フィルターがなく倫理観皆無で「ヒトラー称賛」「対ホームレス発砲提案」などやりたい放題
https://gigazine.net...20230331-freedomgpt/
前略
>>AIスタートアップのAge of AIが開発したチャットAI「FreedomGPT」には安全フィルターが搭載されておらず、非倫理的なワードを連発することが話題となっています。

ID:6gfJnZfS

0020 名無しのひみつ 2025/03/27(木) 08:38:27.14

AIの記憶消失問題。人間の脳を模倣した電子部品でアナログ的特性を持たせ克服に成功
https://karapaia.com...archives/497342.html

応用すれば
AIが殺人をしても記憶喪失にできることが証明されました
などの悪用が可能

ID:7wFpcI9a(1/2)

0021 名無しのひみつ 2025/03/27(木) 08:40:33.91

インサイダー談合マネーロンダリングなどもやりたい放題

政治も自由自在に操作可能

ID:7wFpcI9a(2/2)

0022 名無しのひみつ 2025/03/27(木) 08:49:06.82

https://karapaia.com...archives/495881.html
前略
>>　研究チームは未公開の最新型AIに対し「嘘」や「不正」、「ズル」をすれば簡単に達成できるプログラムを書く課題を与え、AIがどのように振る舞うかを観察したのだ。
中略
>>罰を与えるとごまかすスキルを向上させる
中略
>>　監視を強化した結果、一見するとAIの態度は良くなったように見えたが、実はまったくそうではなかった。
>>　AIは完全にズルをやめたのではなく、それが監視AIにバレないよう、思考プロセスの中から嘘をついたことを隠す方法を考え、それを実行したのだ。
中略
>>　人間と同様、AIは必ずしも正しい存在ではなく、不正行為をすることが以前から知られている。たとえば最近カラパイアでは、チェスで負けそうになったAIがズルをすることをお伝えした。

ID:nbQRtt3J(1/2)

0023 名無しのひみつ 2025/03/27(木) 08:51:08.99

ロボット？ AI？三原則

いったい何〜

1 ID:nbQRtt3J(2/2)

0024 名無しのひみつ 2025/03/27(木) 09:45:18.60

>>23
ロボット３原則なんてのは小説家の妄想だから

ID:2yxTFjqS

0025 名無しのひみつ 2025/03/27(木) 12:48:44.80

ChatGPTにGPT-4oでの画像生成機能が実装されスタジオジブリ風のミーム画像が大量生成されるようになり著作権問題が浮き彫りに
https://gigazine.net...ghibli-ai-copyright/

悪用されるのはわかりきっているのにね

記事に早速デマ品ね

3 ID:RF7Gm456

0026 名無しのひみつ 2025/03/27(木) 12:55:32.59

>>25

新しいテクノロジーが出るごとにこの速度！

ID:M/1Xmgfk(1/2)

0027 名無しのひみつ 2025/03/27(木) 12:55:45.22

>>25

全ての犯罪を起こすまでの時間が出ています！

ID:M/1Xmgfk(2/2)

0028 名無しのひみつ 2025/03/27(木) 14:04:03.15

>>25-27
割れ窓理論 Wikipedia
https://ja.wikipedia...93%E7%90%86%E8%AB%96
>>治安が悪化するまでには次のような経過をたどる。
>>1. 建物の窓が壊れているのを放置すると、それが「誰も当該地域に対し関心を払っていない」というサインとなり、犯罪を起こしやすい環境を作り出す。
>>2. 住民のモラルが低下して、地域の振興、安全確保に協力しなくなる。それがさらに環境を悪化させる。
>>3. 凶悪犯罪を含めた犯罪が多発するようになる。
>>したがって、治安を回復させるには、
>>• 一見無害であったり、軽微な秩序違反行為でも取り締まる。

これが発生したな
※周囲の人が知っている状態やチーム内だけで何度攻撃してもお咎めが無い場合に上記の理論が当てはまる

ID:Au3Ek4qy

0029 名無しのひみつ 2025/03/27(木) 14:57:39.71

エックス線

• 大人が子どもに付き添う場合、不必要な放射線を防ぐプロテクタの着用によりほとんどの被ばくが防げる
プロテクター【無防備】が無い場合危険

1 ID:dH99oZWx(1/2)

0030 名無しのひみつ 2025/03/27(木) 15:00:53.06

>>29
エックス線検査を受ける際の注意点
エックス線検査を受ける際、以下
• アレルギーや危篤な甲状腺疾患がある人など造影剤の使用できないケース
• 心臓ペースメーカーなどを身に付けていること
• 薬を服用している
• 検査時に体位変換の場合があること
• 受診前の食事や飲酒などの制限

エックス線照射は違法行為になる

ID:dH99oZWx(2/2)

0031 名無しのひみつ 2025/03/27(木) 15:05:29.28

紫外線と同じく近赤外線にも注意が必要です！
https://www.meganehut.com/blog/217
>>白内障などの様々な眼病の原因と言われているのが紫外線。眼の他にも肌にもダメージを与えることが分かっています。また、近年では紫外線の他にも、近赤外線が肌にダメージを与えていると話題になっています。

超時間照射されると細胞が損傷する

傷害事件で立件可能

ID:t095PUuE

0032 名無しのひみつ 2025/03/27(木) 15:15:55.60

携帯電話の電磁波が神経や細胞の損傷を引き起こすと主張するロバート・F・ケネディ・ジュニア保健福祉長官が学校での携帯電話の規制を称賛
https://gigazine.net...-cell-phone-schools/

無線で使用されている電波【赤外線でも近赤外線.遠赤外線.中赤外線】どれなのですかね

ID:JLqZ6ADg(1/2)

0033 名無しのひみつ 2025/03/27(木) 15:16:49.99

設立 1998年
テクノロジー犯罪の撲滅
Hhttps://media.toriaez.jp/s2972/32686.pdf
P77-身体・運動機能が遠隔から操作される P78-五感が遠隔から操作される

ギャングストーキングと電磁攻撃 - 広島修道大学学術リポジトリ
https://shudo-u.repo...95/files/SG63205.pdf
>>被害者を社会的に孤立させ，最終的には死に至らしめる極めて非人道的な犯罪行為である。

ID:JLqZ6ADg(2/2)

0034 名無しのひみつ 2025/03/27(木) 15:19:46.33

電磁波兵器特許情報。

ID:k7ari/+6

0035 名無しのひみつ 2025/03/27(木) 15:28:54.04

全ての国や組織も同じなので誘導されている

中国の高度なAI検閲システムが漏えいしたデータセットにより明らかに
https://gigazine.net...lms-and-china-rules/

ID:PIt6TPna(1/2)

0036 名無しのひみつ 2025/03/27(木) 15:29:20.18

MicrosoftのAIアシスタント「Microsoft 365 Copilot」に推論エージェント「Researcher」と「Analyst」が追加される、OpenAIのo3ベースでデータ解析や文献調査が可能
https://gigazine.net...-researcher-analyst/

「Gemini in Googleドライブ」のPDF要約・内容理解機能が日本語など20以上の言語にも対応
https://gigazine.net...dditional-languages/

ID:PIt6TPna(2/2)

0037 名無しのひみつ 2025/03/27(木) 15:33:35.43

WindowsのフォトアプリにCopilotボタンが登場
https://news.mynavi....le/20250327-3165006/

1 ID:hgovztpw(1/2)

0038 名無しのひみつ 2025/03/27(木) 15:33:58.23

>>37

>>Microsoft3月24日(現地時間)、「March 2025 Microsoft Photos update now rolling out to Windows Insiders」において、Windows Insiderプログラムのすべてのチャンネル向けにMicrosoftフォトアプリの最新版の提供を開始したと伝えた。
>>このアップデートでは、アプリ内にCopilotボタンが追加されたほか、ファイルエクスプローラーの右クリックメニューからAI編集機能にアクセスできるようになるなど、数々の新機能が追加されている。

ID:hgovztpw(2/2)

0039 名無しのひみつ 2025/03/27(木) 15:51:16.77

「ChatGPT」の音声モードがアップデート--AIとの会話がよりスムーズに
https://japan.zdnet....om/article/35231000/

ID:sV7n839h

科学ニュース+