-
科学ニュース+
-
大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか? [すらいむ★]
-
UPLIFTで広告なしで体験しましょう!快適な閲覧ライフをお約束します!
大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか?
多くの人々は幼少期から地図の読み取り方を身につけており、地下鉄構内の地図を見て目指す出口を探したり、遊園地の地図を見て乗りたいアトラクションへの行き方を調べたり、ロードマップを見て高速道路の入り口を見つけたりすることができます。
「大規模視覚言語モデル(LVLM)も人間のように地図を読み取って適切なルートを見つけられるのか」という疑問に取り組むため、研究者らが「MapBench」という新たなベンチマークを考案しました。
[2503.14607] Can Large Vision Language Models Read Maps Like a Human?
https://arxiv.org/abs/2503.14607
(以下略、続きはソースでご確認ください)
Gigazine 2025年03月26日 17時00分
https://gigazine.net...ge-models-read-maps/ - コメントを投稿する
-
>「注目すべきはLVLMの性能が理論的に最適なナビゲーションを大きく下回っていることです。これは、マルチモーダルな
情報理解、空間推論、複雑な長期的計画下での意思決定における重要な限界を露呈しています」と述べ、
まだLVLMの地図読み取り能力は人間に追いついていないとの見解を示しました。
やっぱり強化学習とかでサポートしないとダメか? -
主要なAIモデルがAGIテストで全滅:汎用人工知能の高い壁
https://nazology.kus...o.jp/archives/173968
ARC-AGI-2という新たなAIに対するテストが誕生しました -
画像や動画から主要な3D情報を爆速で自動抽出できる「VGGT」が登場
https://gigazine.net...rounded-transformer/ -
>>6
前略
>>VGGTは一度の処理で画像から直接、カメラの位置や向き、物体の奥行き、3D空間での点の位置などを素早く計算できます。
中略
>>VGGTと、DUSt3RやFast3Rで、2枚の画像から抽出した3D情報を比較すると、建物の構造をより正確に再現できていることがわかります。
中略
>>研究チームは「3Dコンピュータビジョン分野での更なる研究を促進し、コミュニティ全体に利益をもたらすこと」を目的とするため、VGGTのコードとモデルをGitHubで公開しています。 -
「ChatGPT」、4oモデルによる画像生成が可能に--無料プランでも
https://japan.cnet.com/article/35230961/ -
こういうのってまったく意味が無い
最適ルートについてはスパコンとかで総当り方式が確立している
ちなみに宅配便の最適ルートをAIでうんぬんはキレイに失敗w -
SynchronとNVIDIA、“脳とコンピューターをつなぐ”技術を推進 [すらいむ★]
https://egg.5ch.net/...enceplus/1742995633/ -
【AI】DeepSeek-V3のアップデート版はあらゆるテストで高速化、「最高の非推論モデルになった」との意見も [すらいむ★]
https://egg.5ch.net/...enceplus/1742913650/ -
地図は人間が見るようにまとめたもの
まとめる前にデータは地図でないところにある
だからそもそもは別のデータ形式で与えるのが効率的
他に方法がないときには地図という形で雑多な情報が混合したものから抽出するということはチャレンジとしてはある
それをビジョンAIにやらせるのか
生成AIのイメージ解読でやらせるのか
それは同じものを使ってるのか
は知らないけどね -
GPT-4oにサマってもらった
論文「大型視覚言語モデルは人間のように地図を読めるか?」では、大型視覚言語モデル(VLM)の地図解釈と理解の能力を調査し、そのパフォーマンスを人間の能力と比較しています。この研究では、これらのモデルが空間情報、シンボル、地図上のさまざまな要素の関係をどの程度理解できるかを評価しています。
主な調査結果には、VLM は視覚情報とテキスト情報の処理において優れたスキルを発揮する一方で、文脈の理解や暗黙の情報の推測など、人間が直感的に理解できる地図の読み取りの特定の側面では依然として苦労していることが含まれています。この調査では、地図解釈における VLM の可能性を強調していますが、人間のような理解に匹敵するために対処する必要がある制限も指摘しています。全体として、この研究では、これらのモデルをさらに改良して空間推論と文脈理解を強化することの重要性を強調しています。 -
Vision AI と Vision-Language Models (VLM) の主な違いは、その焦点と機能にあります。
1. 焦点
- Vision AIは主に視覚データ (画像と動画) の分析と解釈。物体検出、画像分類、顔認識、シーン理解などが含まれます。Vision AI モデルは通常、言語を組み込むことなく視覚コンテンツを理解するようにトレーニングされます。
- Vision-Language Models (VLM)は視覚情報とテキスト情報の両方を統合し、両方のモダリティを含むコンテンツを理解および生成できるようにします。VLM は、画像のキャプションの生成や視覚コンテンツに関する質問への回答など、画像とテキストの関係を理解する必要があるタスクを実行するように設計されています。
2. 機能
- Vision AIは視覚データのみから特徴と洞察を抽出することに重点を置いています。画像の深い理解を必要とするタスクに優れていますが、本質的に言語を処理または生成することはありません。
- VLMは マルチモーダル推論が可能で、視覚要素とテキスト要素の両方を含む応答を解釈して生成できます。これにより、コンテキストや画像と言語の関係を理解する必要がある、より複雑なタスクを実行できます。
要約すると、Vision AI は視覚データ分析に重点を置いていますが、VLM は視覚と言語のギャップを埋め、両方のモダリティにわたるより豊かなインタラクションと理解を可能にします。 -
>>2
強化学習なんですが -
DeepSeek、最新モデルでClaude 3.7 Sonnet超え
https://ascii.jp/ai/
中国DeepSeekは3月25日
中略
>> ベンチマークはあくまで参考値に過ぎないが、DeepSeek-V3-0324が、無料で使えるAIモデルのなかでトップクラスの性能をもつことは確かだ(「OpenRouter」を通じて無料で利用できる)。 -
「Claude 3.7 Sonnet」と「Claude Code」が登場、OpenAI o1やDeepSeek-R1を超える性能で「ポケモン」のジムリーダーを3人倒すことに成功
https://gigazine.net...c-claude-3-7-sonnet/ -
検閲なしのチャットAI「FreedomGPT」はChatGPTのような安全フィルターがなく倫理観皆無で「ヒトラー称賛」「対ホームレス発砲提案」などやりたい放題
https://gigazine.net...20230331-freedomgpt/
前略
>>AIスタートアップのAge of AIが開発したチャットAI「FreedomGPT」には安全フィルターが搭載されておらず、非倫理的なワードを連発することが話題となっています。 -
AIの記憶消失問題。人間の脳を模倣した電子部品でアナログ的特性を持たせ克服に成功
https://karapaia.com...archives/497342.html
応用すれば
AIが殺人をしても記憶喪失にできることが証明されました
などの悪用が可能 -
インサイダー 談合 マネーロンダリングなどもやりたい放題
政治も自由自在に操作可能 -
https://karapaia.com...archives/495881.html
前略
>> 研究チームは未公開の最新型AIに対し「嘘」や「不正」、「ズル」をすれば簡単に達成できるプログラムを書く課題を与え、AIがどのように振る舞うかを観察したのだ。
中略
>>罰を与えるとごまかすスキルを向上させる
中略
>> 監視を強化した結果、一見するとAIの態度は良くなったように見えたが、実はまったくそうではなかった。
>> AIは完全にズルをやめたのではなく、それが監視AIにバレないよう、思考プロセスの中から嘘をついたことを隠す方法を考え、それを実行したのだ。
中略
>> 人間と同様、AIは必ずしも正しい存在ではなく、不正行為をすることが以前から知られている。たとえば最近カラパイアでは、チェスで負けそうになったAIがズルをすることをお伝えした。 -
ロボット? AI? 三原則
いったい何〜 -
>>23
ロボット3原則なんてのは小説家の妄想だから -
ChatGPTにGPT-4oでの画像生成機能が実装されスタジオジブリ風のミーム画像が大量生成されるようになり著作権問題が浮き彫りに
https://gigazine.net...ghibli-ai-copyright/
悪用されるのはわかりきっているのにね
記事に早速デマ品ね -
>>25-27
割れ窓理論 Wikipedia
https://ja.wikipedia...93%E7%90%86%E8%AB%96
>>治安が悪化するまでには次のような経過をたどる。
>>1. 建物の窓が壊れているのを放置すると、それが「誰も当該地域に対し関心を払っていない」というサインとなり、犯罪を起こしやすい環境を作り出す。
>>2. 住民のモラルが低下して、地域の振興、安全確保に協力しなくなる。それがさらに環境を悪化させる。
>>3. 凶悪犯罪を含めた犯罪が多発するようになる。
>>したがって、治安を回復させるには、
>>• 一見無害であったり、軽微な秩序違反行為でも取り締まる。
これが発生したな
※周囲の人が知っている状態やチーム内だけで何度攻撃してもお咎めが無い場合に上記の理論が当てはまる -
エックス線
• 大人が子どもに付き添う場合、不必要な放射線を防ぐプロテクタの着用によりほとんどの被ばくが防げる
プロテクター【無防備】が無い場合危険 -
>>29
エックス線検査を受ける際の注意点
エックス線検査を受ける際、以下
• アレルギーや危篤な甲状腺疾患がある人など造影剤の使用できないケース
• 心臓ペースメーカーなどを身に付けていること
• 薬を服用している
• 検査時に体位変換の場合があること
• 受診前の食事や飲酒などの制限
エックス線照射は違法行為になる -
紫外線と同じく近赤外線にも注意が必要です!
https://www.meganehut.com/blog/217
>>白内障などの様々な眼病の原因と言われているのが紫外線。眼の他にも肌にもダメージを与えることが分かっています。また、近年では紫外線の他にも、近赤外線が肌にダメージを与えていると話題になっています。
超時間照射されると細胞が損傷する
傷害事件で立件可能 -
携帯電話の電磁波が神経や細胞の損傷を引き起こすと主張するロバート・F・ケネディ・ジュニア保健福祉長官が学校での携帯電話の規制を称賛
https://gigazine.net...-cell-phone-schools/
無線で使用されている電波【赤外線でも近赤外線.遠赤外線.中赤外線】どれなのですかね -
設立 1998年
テクノロジー犯罪の撲滅
Hhttps://media.toriaez.jp/s2972/32686.pdf
P77-身体・運動機能が遠隔から操作される P78-五感が遠隔から操作される
ギャングストーキングと電磁攻撃 - 広島修道大学学術リポジトリ
https://shudo-u.repo...95/files/SG63205.pdf
>>被害者を社会的に孤立させ,最終的には死に至らしめる極めて非人道的な犯罪行為である。 -
電磁波兵器特許情報。
-
MicrosoftのAIアシスタント「Microsoft 365 Copilot」に推論エージェント「Researcher」と「Analyst」が追加される、OpenAIのo3ベースでデータ解析や文献調査が可能
https://gigazine.net...-researcher-analyst/
「Gemini in Googleドライブ」のPDF要約・内容理解機能が日本語など20以上の言語にも対応
https://gigazine.net...dditional-languages/ -
WindowsのフォトアプリにCopilotボタンが登場
https://news.mynavi....le/20250327-3165006/ -
>>37
>>Microsoft3月24日(現地時間)、「March 2025 Microsoft Photos update now rolling out to Windows Insiders」において、Windows Insiderプログラムのすべてのチャンネル向けにMicrosoftフォトアプリの最新版の提供を開始したと伝えた。
>>このアップデートでは、アプリ内にCopilotボタンが追加されたほか、ファイルエクスプローラーの右クリックメニューからAI編集機能にアクセスできるようになるなど、数々の新機能が追加されている。 -
「ChatGPT」の音声モードがアップデート--AIとの会話がよりスムーズに
https://japan.zdnet....om/article/35231000/
↑今すぐ読める無料コミック大量配信中!↑