株式会社ずんだもん技術室AI放送局

by 株式会社ずんだもん技術室AI放送局

227 episodes

Updated Daily

Accepts GuestsHas SponsorsLocation 🇯🇵

Overview

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

Language

🇯🇵

Publishing Since

5/25/2024

Visit Website View on Apple Podcasts RSS Feed

Reach out to this podcast

Get in touch with the podcast creators

Email Addresses

1 available

Phone Numbers

0 available

Get Full Contact Details

Recent Episodes

April 21, 2025

株式会社ずんだもん技術室AI放送局 podcast 20250422

<h2 id="関連リンク">関連リンク</h2> <ul> <li><a href="https://aws.amazon.com/blogs/machine-learning/build-a-location-aware-agent-using-amazon-bedrock-agents-and-foursquare-apis/">Build a location-aware agent using Amazon Bedrock Agents and Foursquare APIs Amazon Web Services</a></li> </ul> この記事は、Amazon Bedrock AgentsとFoursquare APIを使って、ユーザーの位置情報に基づいた賢いAIエージェントを構築する方法について解説しています。 パーソナル化された体験を提供するために、ユーザーの好みだけでなく、場所や天気といった状況も考慮することが重要です。例えば、晴れた日には公園、雨の日にはカフェといった具合に、状況に合わせたおすすめができれば、ユーザーはより満足するでしょう。このような位置情報を考慮したレコメンデーションを実現するために、Amazon Bedrock AgentsとFoursquare APIを連携させるアプローチが紹介されています。 Amazon Bedrockは、様々な高性能なAIモデルをAPI経由で利用できるAWSのサービスです。インフラ管理なしに生成AIアプリケーションを開発できます。 Amazon Bedrock Agentsは、Bedrockの機能の一つで、AIエージェントを自律的に動作させることができます。これらのエージェントは、ユーザーの複雑なリクエストを理解し、必要なステップに分解して実行できます。特に、会社の持つAPIやデータソースと連携させることで、定型的な業務などを自動化させることが可能です。プロンプトエンジニアリングやメモリ管理などを自動で行ってくれるため、比較的容易に設定できます。 一方、Foursquare Places APIは、正確な位置情報インテリジェンスを提供する外部サービスです。GeoTagging APIで緯度経度から場所を特定したり、Place Search & Data APIで場所のカテゴリや属性、営業時間などで絞り込んで検索したりできます。写真やレビュー、人気度といった詳細な情報も取得可能です。 これらの技術を組み合わせることで、ユーザーが今いる場所や天気といったコンテキストを理解し、それに合わせた関連性の高い、タイムリーな情報を提供できるAIエージェントを作ることができます。記事では、Amazon Bedrock AgentがFoursquare APIと天気APIを呼び出すアーキテクチャが示されており、ユーザーが近くの公園を探したり、公園周辺のテイクアウト可能なレストランを探したりするデモ例が紹介されています。 この位置情報認識エージェントを構築するためのソースコードはGitHubリポジトリで公開されており、必要な環境変数を設定し、依存関係をインストールすれば試すことができます。 開発のベストプラクティスとしては、テストデータセットを用意してエージェントの応答を検証することや、Amazon Bedrock Guardrailsを使って不適切な入力を防ぐ対策を行うことが推奨されています。 このように、Amazon Bedrock Agentsと外部APIを連携させることで、ユーザーの状況に応じたパーソナルな応答ができるAIエージェントを構築し、より優れたユーザー体験を提供できる可能性が示されています。 引用元: https://aws.amazon.com/blogs/machine-learning/build-a-location-aware-agent-using-amazon-bedrock-agents-and-foursquare-apis/ <ul> <li><a href="https://medium.com/@aazo11/local-llm-inference-897a06cc17a2">Local LLM inference - Amir Zohrenejad - Medium</a></li> </ul> この記事は、LLM（大規模言語モデル）をインターネット上のクラウドサービスではなく、自分のPCやスマホといった「ローカル環境」で動かす技術の現状と、まだ実用化に向けた課題について解説しています。 なぜ、わざわざLLMをローカルで動かしたいのでしょうか？その主な理由はいくつかあります。一つはコストの削減です。クラウドでLLMを使うと利用料がかかりますが、ローカルなら追加費用は不要です。次にプライバシーの向上です。機密性の高い情報を外部のサーバーに送らずに処理できるため、情報漏洩のリスクを減らせます。また、処理速度の向上も期待できます。ネットワークの遅延がないため、特に最初の応答が速くなる可能性があります。さらに、オフラインでも利用できるようになる点も大きなメリットです。例えば、スマートフォンの顔認証機能はローカルでの画像処理（推論）の良い例で、高速性、オフライン性、プライバシーが重要だからこそローカルで行われています。 この記事の著者は、Macbook Pro（M2チップ搭載）を使って、いくつか代表的なローカル推論のためのフレームワーク（プログラムの枠組み）を試しています。具体的には、C/C++で書かれた高速な<code class="language-plaintext highlighter-rouge">llama.cpp</code>、それを使いやすくした<code class="language-plaintext highlighter-rouge">Ollama</code>、そしてブラウザ上で動く<code class="language-plaintext highlighter-rouge">WebLLM</code>です。これらを使って、量子化（モデルを軽量化する技術）された比較的小さな（7Bサイズの）LLMを動かし、性能を測りました。クラウドのOpenAIの小さなモデルとも比較しています。 性能評価では、「最初の単語が出てくるまでの時間（TTFT）」と「1秒間に生成できる単語数（TPS）」を計測しました。結果として、<code class="language-plaintext highlighter-rouge">llama.cpp</code>と<code class="language-plaintext highlighter-rouge">Ollama</code>はTTFTが非常に速く、応答までの待機時間が短いことが分かりました。TPSもこの2つは同程度でした。<code class="language-plaintext highlighter-rouge">WebLLM</code>はどちらの指標でも他のフレームワークより遅めでした。クラウドのOpenAIモデルと比較すると、ローカルで動かした小型モデルはTPSで劣る結果でしたが、それでも実用的なレベルの速度は出ていました。 しかし、性能面以外に、ローカルLLMにはまだ開発者が取り組むべき課題があります。最も大きな課題は、モデルの選定と配布です。ローカル環境のリソース（メモリや計算能力）は限られているため、使うタスクに最適な、小さく効率化されたモデルを見つける必要があります。ところが、世の中にはたくさんのモデルがあり、どれを選べば良いか迷いやすいのが現状です。また、選んだモデルのファイルサイズが大きい（数GB以上）ことが多く、ユーザーがアプリを使い始める前にモデルをダウンロード・ロードするのに数分かかることもあります。これは、ユーザーにとって不便で、アプリの最初の体験を損なってしまいます。 結論として、ローカルLLM推論は技術的には可能になり、性能も上がってきていますが、実用的なアプリケーションとして広く普及するには、開発者が目的のモデルを簡単に見つけ、ユーザーがモデルのダウンロードや実行を意識せずに済むような、もっと使いやすい開発ツールや配布の仕組みが必要だと筆者は述べています。将来的には、クラウドとローカルのLLMがうまく連携し、それぞれの利点を活かす形での普及が期待されます。 （992文字） 引用元: https://medium.com/@aazo11/local-llm-inference-897a06cc17a2 <ul> <li><a href="https://note.com/cor_instrument/n/n6d2bc4db9175">128GB搭載M4 Max MacBook ProでオープンLLM「Gemma 3」をローカル実行してみた話</a></li> </ul> この記事は、128GBもの大容量メモリを搭載したM4 Max MacBook Proを使って、Googleの最新オープンな大規模言語モデル（LLM）「Gemma 3」を自分のPC（ローカル環境）で動かしてみた体験談です。API利用料やプライバシーを気にせず、手元でAIを自由に動かしたいという思いから、高性能なMacBook Proを購入し、Gemma 3のローカル実行に挑戦しています。 Gemma 3はテキストだけでなく画像なども扱える「マルチモーダル」に対応しており、特に大きな特徴は非常に長い文脈（コンテキストウィンドウ）を扱えることです。この記事では、Gemma 3の中でもサイズの異なる12B（120億パラメータ）モデルと最大の27B（270億パラメータ）モデルを試しています。 ローカルで動かすための準備は、Open WebUIやllama.cppベースのツールを使えば比較的簡単だったとのこと。M4 Maxチップと128GBメモリ、そしてAppleのMetal技術を使うことで、27Bのような大きなモデルも実用的な速度で動かせました。 実際に試したところ、面白い発見がありました。まず、夏目漱石の小説『吾輩は猫である』の要約をGemma3-12Bにお願いしたところ、内容はそれなりでしたが、なんと作者を芥川龍之介と間違えてしまいました。これは「ハルシネーション（AIが事実と異なることを生成すること）」と呼ばれる現象で、比較的小さなモデルでは知識や理解が不十分な場合があることを示しています。 次に、同じタスクをより大きなGemma3-27Bで試したところ、今度は正確な要約が返ってきました。この体験から、モデルサイズが大きいほど性能が向上することを実感できたそうです。27Bモデルは日本語の長文処理も安定しており、文脈をしっかり保ってくれます。 また、Gemma3-27Bの最大128kトークンという長いコンテキストウィンドウのすごさも体験しました。1万字を超える短編小説を丸ごと入力してテーマを尋ねたところ、全体の構造を理解した深い回答が得られ、まるでPC上で膨大な情報を扱えるAIがいるかのようだと感じたそうです。これは、たくさんのドキュメントを読ませて要約させたり、大量のコードを解析させたりといった、ローカルでの開発作業にも役立つ可能性を示しています。 さらに、Gemma 3の画像認識能力も試しました。画像を入力してその説明を求めたところ、実用レベルの応答があり、ローカルで画像も扱えるマルチモーダルAIの可能性を感じました。ただし、ローカルで画像を使う場合は、モデルを起動するディレクトリに画像ファイルを置くといった少し注意すべき点もあったようです。 高性能なMacBook Proについて、筆者は512GBメモリ搭載のMac Studio (M3 Ultra) も話題になっていることに触れつつ、数千億パラメータのような超巨大モデルを一台のPCで動かすのは計算能力的に現実的ではないと述べています。Gemma3-27Bくらいのモデルが、現在のPCで動かすには性能と負荷のバランスが良い「現実的な上限」だと考えているようです。 最後に、M4 Max MacBook Pro (128GB) は高価ではあるものの、開発作業だけでなく巨大LLMも動かせるその汎用性と性能は価格に見合う価値があり、特にApple Siliconの「ユニファイドメモリ」（CPUとGPUでメモリを共有する仕組み）が大容量を実現している点を評価しています。API料金やプライバシーを気にせずローカルでAIを試せる安心感は大きく、AI活用を本気でやりたいエンジニアにとって、メモリをたくさん積んだMacは有力な選択肢だと結んでいます。 この記事は、高性能なPCとオープンなLLMを使うことで、手元で高度なAI環境を構築できる時代が来ていることを示唆しており、ローカルAIの世界に興味があるエンジニアへの刺激となる内容です。 引用元: https://note.com/cor_instrument/n/n6d2bc4db9175 <ul> <li><a href="https://togetter.com/li/2541260">慶応大学のAI対策が面白い PDFに透明度100で見えない文書を埋め込みAIに読み込ませると誤回答する仕組みに</a></li> </ul> 慶應義塾大学の授業で、PDF資料に一風変わったAI対策が施されていたと話題になっています。これは、学生が課題を提出する際に安易に生成AIに頼りすぎることを防ぎ、AIの特性や限界を理解してもらうための教育的な工夫として注目されています。 具体的には、配布されたPDF資料に、人間が見ても分からないように透明度100%（完全に透明）にしたテキストが大量に埋め込まれていました。この隠されたテキストには、本来の授業内容とは全く関係のない情報や、AIが誤った要約をするように誘導するような内容が含まれていたようです。 生成AIの多くは、PDFなどのドキュメントを読み込む際に、テキストデータとして処理します。このとき、文字の色や透明度といった見た目の情報は考慮されず、そこに書かれているテキストそのものを抽出してしまいます。そのため、AIにこのPDFを読み込ませて要約させると、透明で見えないはずの無関係なテキストまで含めて処理してしまい、元の内容とは全く異なる、おかしな要約結果が出てしまうという仕組みです。 この対策の面白い点は、単に「生成AIを使うな」と禁止するのではなく、AIを課題作成に利用した場合にどのような問題が起こりうるかを、学生自身に体験させる形になっていることです。「課題は自分なりの言葉で記述する」という指示と組み合わせることで、AIが生成した答えをそのまま提出しても適切な評価が得られないことを示唆し、AIの出力内容を鵜呑みにせず、自分で検証し、適切に利用することの重要性を教えています。 この事例は、AIがどのように情報を読み取るか、そしてその特性を理解した上でどのように付き合っていくべきかという、エンジニアにとっても非常に重要な学びを示唆しています。最新技術であるAIも万能ではなく、その動作原理を知り、限界を踏まえて賢く活用していく姿勢が求められていると言えるでしょう。 引用元: https://togetter.com/li/2541260 <ul> <li><a href="https://forms.gle/ffg4JTfqdiqK62qf9">お便り投稿フォーム</a></li> </ul> （株式会社ずんだもんは架空の登場組織です）

April 20, 2025

マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250421

<h2 id="関連リンク">関連リンク</h2> <ul> <li><a href="https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/">Gemma 3 QAT Models: Bringing state-of-the-Art AI to consumer GPUs</a></li> </ul> Googleは、高性能な最新オープンAIモデル「Gemma 3」を発表しました。このモデルは高い性能を持っていますが、本来はBF16という精度で動かすために、NVIDIA H100のような高性能で高価なGPUが必要でした。 もっと多くの日本のエンジニアやAI開発者がこの素晴らしいモデルを気軽に使えるようにするため、Googleは「QAT (Quantization-Aware Training)」という技術で最適化された新しいGemma 3モデルを発表しました。 QATとは、AIモデルのデータを圧縮する「量子化」という技術を、モデルを訓練する（学習させる）段階から組み込む手法です。モデルのデータを小さくすることで、実行に必要なGPUのメモリ（VRAM）を大幅に減らすことができます。単純に量子化するとモデルの性能が落ちやすいのですが、QATを使うことで、性能の低下を最小限に抑えつつ、データサイズを小さくできるのが特徴です。 このQATによる最適化の効果は絶大です。例えば、Gemma 3の最大のモデルである27B（パラメータ数が多いほど高性能だがサイズも大きい）の場合、BF16精度だと54GBのVRAMが必要でしたが、int4という精度に量子化されたQATモデルでは、必要なVRAMがわずか14.1GBに減りました。これにより、NVIDIA RTX 3090（VRAM 24GB）のような、一般的に入手しやすいデスクトップPC向けGPUでも、これまで一部の研究者や企業でしか動かせなかったような高性能なGemma 3 27Bモデルを、自分のPCで実行できるようになります。 他のサイズのモデル（12B, 4B, 1B）も同様にVRAMが大幅に削減されており、ラップトップPCのGPUや、さらにメモリが少ないデバイスでも動かしやすくなりました。 これらのQAT最適化済みモデルは、Ollama、llama.cpp、MLXといった人気のAI実行ツールに対応しており、Hugging FaceやKaggleといったプラットフォームで公開されています。これにより、既存の開発環境に簡単に組み込んで試すことができます。 この取り組みは、最新のAI技術を特定の高性能ハードウェアを持つ人だけでなく、より多くのエンジニアが手軽に利用できるようにすることを目指しています。これにより、AI開発のハードルが下がり、新しいアイデアが生まれやすくなることが期待されます。高価なGPUがなくても、手元のPCで最先端のGemma 3モデルを使ってAI開発を始めるチャンスです。 引用元: https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/ <ul> <li><a href="https://blueqat.com/yuichiro_minato2/40faced2-a224-4c07-849d-3651ebcb3356">ついに量子コンピュータでLLMの追加学習に成功。量子コンピュータとテンソルネットワークがLLM計算を変える。</a></li> </ul> この記事では、最先端技術である量子コンピュータと大規模言語モデル（LLM）が結びつき、特にLLMの追加学習（ファインチューニング）の方法が大きく変わり始めている状況について解説しています。 これまでのLLM学習は、たくさんのGPUを使った大規模な計算が中心でした。しかし最近では、LoRA（Low-Rank Adaptation）のように、モデル全体ではなく一部だけを効率よく学習させる「軽量な微調整手法」が注目されています。量子コンピュータは、少ない計算資源（量子ビット）でも「重ね合わせ」や「もつれ」といった量子力学の不思議な性質を使うことで、高い表現力を持つ可能性があります。ここに、量子コンピュータを使ってLLMを扱うメリットがあります。 この量子コンピュータ上でのLLMの学習を可能にしている重要な技術の一つが「テンソルネットワーク」です。これは、量子状態や複雑なデータ構造を効率的に扱える数学的な手法で、巨大なLLMの一部を量子コンピュータ向けに変換したり学習させたりするのに役立ちます。これにより、従来の数学的手法では難しかった「量子的情報構造」の調整ができるようになります。 量子コンピュータを使ったLLMのファインチューニングは、ただ単に学習を速くするだけでなく、従来とは全く異なる「新しいやり方（別の相）」として捉えられています。量子コンピュータの性質を最大限に活かすには、従来の学習アルゴリズムだけでは不十分なため、量子回路に特化した新しい学習方法の研究も進んでいます。 実際に、いくつかの研究では、量子コンピュータ上でLLMのファインチューニングの一部を実行したり、特定の分野（法律や医療など）に特化した小さなモデルを量子コンピュータで調整したりする例が出てきています。これにより、計算の高速化だけでなく、LLMがより柔軟に対応できるようになり、少ないエネルギーで動いたり、より深い表現力を獲得したりすることが期待されています。 結論として、量子コンピュータがLLMに利用されることで変わるのは、単なる計算速度ではなく、LLMをデータに合わせて調整し、進化させる「学習・適応・最適化」というプロセスそのものです。LoRAやテンソルネットワークといった技術が、この新しい時代の扉を開いています。これは、AIが今までとは違う「量子的な考え方」を取り入れ始める可能性を示唆していると言えるでしょう。 引用元: https://blueqat.com/yuichiro_minato2/40faced2-a224-4c07-849d-3651ebcb3356 <ul> <li><a href="https://tech.preferred.jp/ja/blog/plamo-embedding-1b/">テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 - Preferred Networks Research & Development</a></li> </ul> Preferred Networks（PFN）は、日本語の文章を数値ベクトルに変換する新しいモデル「PLaMo-Embedding-1B」を開発しました。これは、同社の大規模言語モデル（LLM）「PLaMo」をベースにしています。 テキスト埋め込みモデルは、文章の意味を捉えて数値ベクトルとして表現します。意味的に似た文章は近いベクトルに、遠い文章は離れたベクトルになります。これにより、ベクトルの類似度を計算することで、文章同士がどれくらい似ているかを測ることができます。この技術は、膨大な文章の中から関連性の高いものを探す「情報検索」や、最近注目されているLLMと検索技術を組み合わせた「RAG (Retrieval Augmented Generation)」などのシステム構築において非常に重要な役割を果たします。 PFNが開発したPLaMo-Embedding-1Bは、日本語のテキスト埋め込みモデルの性能を測るベンチマーク「JMTEB」で、公開時点でOpenAIの高性能モデルなどを上回り、トップクラスの評価を得ました。特に、文章検索に関わるRetrievalタスクで優れた性能を発揮しています。 この高い性能を達成するために、いくつかの技術的な工夫が行われています。 <ol> <li>LLM構造の応用: 言語生成に使われるLLMの構造を、テキスト全体を考慮して埋め込みベクトルを計算する Bidirectional モデルに適した形に変換する「LLM2Vec」という手法を取り入れています。</li> <li>段階的な学習プロセス: まず、大量のデータを使って基本的な能力を高める「事前学習」を行い、その後、より質の高いデータで精度を向上させる「ファインチューニング」を行いました。</li> <li>効率的な学習: 学習では「対照学習」という手法を用いて、意味的に関連のある文章のベクトルは近づけ、そうでない文章のベクトルは遠ざけるようにモデルを調整しています。</li> <li>データの工夫: 異なる種類のデータで事前学習したモデルを組み合わせる「モデルマージ」や、リランカーという別のモデルを使って学習データの質をチェックし、適切なデータを選ぶフィルタリングを行いました。また、学習をより効果的にするために、一見似ているが意味が異なる「Hard-negative」と呼ばれる難しいサンプルも活用しています。</li> <li>検索特化の調整: 検索タスクで使われる「質問文（クエリ）」に対して、特定の短いフレーズ（prefix）を付けることで、クエリと検索対象の文章のベクトル表現に非対称性を導入し、検索精度を高める工夫も施されています。</li> </ol> 開発されたPLaMo-Embedding-1Bモデルは、Hugging Faceで公開されており、Apache v2.0ライセンスのもと、個人利用・商用利用を問わず誰でも自由に利用できます。 これらの様々な技術と工夫により、日本語のテキスト埋め込みにおいて高い性能を持つPLaMo-Embedding-1Bが実現しました。この開発で得られた知見は、今後のPFNにおけるLLM開発にも活かされていく予定です。 引用元: https://tech.preferred.jp/ja/blog/plamo-embedding-1b/ <ul> <li><a href="https://togetter.com/li/2540758">間違ったこと言った時の「あ、ごめん。嘘言った」という言い回しが通じなくて、『なんで嘘つくの！』と言われて少しトラブルになった話「エンジニアの癖ですよね」「関西は結構多くの人が使う印象」</a></li> </ul> 今回の記事は、Twitter（現X）で話題になった、間違ったことや勘違いを訂正する際に使う「あ、ごめん。嘘言った」という言い回しが、人によっては伝わりにくく、誤解を招くことがある、という体験談をまとめたものです。 発端となったツイートでは、このフレーズを使ってしまい、相手に「なんで嘘つくの！」と問われて少しトラブルになったことが語られています。そして、「これって理系用語なのだろうか？」と疑問が投げかけられました。 この問いに対し、多くのユーザーから様々な意見が寄せられました。「エンジニアの癖だ」「理系やエンジニア界隈でよく聞く言い方だ」という声が多く、システムのパラメータや数値の誤りをすぐに訂正する際や、通信・放送の現場で使われることがあるなど、具体的な場面を挙げる人もいました。これは、単なる間違いや勘違いであり、意図的に事実と異なることを述べた「嘘」ではない、というニュアンスで使われているようです。中には、高校の理科や工業の先生が使っていたのを聞いて覚えた、研究職でも使う、といった経験談もありました。 一方で、「関西地方ではエンジニアかどうかに関わらず、普通に使う人が多い印象だ」という地域差に関する指摘もありました。短い言葉で端的に誤りを伝えられる点が、理由として推測されていました。 しかし、記事の発端となった体験談が示すように、この言い回しは誤解を生む可能性があります。「嘘」という言葉は、通常、意図的な欺きを連想させるため、悪意なく使ったとしても相手に不信感を与えてしまうリスクがあります。実際、「事実と異なること＝嘘なので用法は合っているが、悪意の有無が伝わらないと問題になる」といった意見もありました。 新人エンジニアの皆さんにとって、このような「業界内では当たり前のように使われているけれど、一般的には少し違ったニュアンスで捉えられる言葉」があることを知っておくのは大切なことです。技術的な専門用語だけでなく、日常会話に近いフレーズでも、特定のコミュニティ内でのみ通じる独特の表現が存在することがあります。 コミュニケーションにおいては、自分の意図が正確に相手に伝わることが重要です。「嘘言った」以外にも、間違えを訂正する表現は「間違えました」「訂正します」「正確には〜です」など様々あります。状況や相手に合わせて、より分かりやすく、誤解のない言葉を選ぶことを心がけましょう。 仕事では、技術力だけでなく、チーム内外の人たちと円滑に連携するためのコミュニケーション能力も非常に重要です。言葉の選び方一つで、相手の受け取り方やその後の関係性が変わることもあります。今回の記事を参考に、普段自分が使っている言葉について少し意識を向けてみるのも良い学びになるはずです。 引用元: https://togetter.com/li/2540758 <ul> <li><a href="https://forms.gle/ffg4JTfqdiqK62qf9">お便り投稿フォーム</a></li> </ul> VOICEVOX:春日部つむぎ

April 17, 2025

私立ずんだもん女学園放送部 podcast 20250418

<h2 id="関連リンク">関連リンク</h2> <ul> <li><a href="https://techfeed.io/entries/680028631c02de6fd1abb47d">TechFeed - エンジニアのための技術情報収集＆共有プラットフォーム</a></li> </ul> タイトル: TechFeed - エンジニアのための技術情報収集＆共有プラットフォーム 要約： OpenAIがo3とo4-miniという新しいAIモデルを発表しました。o3は色々な分野で高い性能を発揮する大型モデルで、o4-miniは計算資源をあまり使わずに良い結果を出す小型モデルです。特にo3は画像を見て内容を理解し、複雑な問題も解けるようになりました。ChatGPTの有料版で試せます。 引用元: https://techfeed.io/entries/680028631c02de6fd1abb47d <ul> <li><a href="https://developers.googleblog.com/en/start-building-with-gemini-25-flash/">Start building with Gemini 2.5 Flash</a></li> </ul> GoogleがGemini 2.5 Flashのプレビュー版を公開。推論能力が大幅に向上しつつ、速度とコストも最適化されている点が特徴。開発者は「thinking budget」を設定することで、品質・コスト・レイテンシのバランスを調整可能。APIを通じてGoogle AI StudioとVertex AIで利用可能。 引用元: https://developers.googleblog.com/en/start-building-with-gemini-25-flash/ <ul> <li><a href="https://developer.nvidia.com/blog/neural-rendering-in-nvidia-optix-using-cooperative-vectors/">Neural Rendering in NVIDIA OptiX Using Cooperative Vectors NVIDIA Technical Blog</a></li> </ul> NVIDIA OptiX 9.0で導入されたcooperative vectorsは、レイトレーシング内でAI処理を効率化する新機能です。NVIDIA RTX Tensor Coreを活用し、シェーディング時にハードウェアアクセラレーションされた行列演算とニューラルネット計算を可能にします。これにより、RTX Neural ShadersやNeural Texture CompressionといったAIレンダリング技術が進化し、リアルタイムレンダリングにおけるフォトリアルなマテリアル表現が向上します。cooperative vectorsはOptiX、DirectX、NVAPI、Slang、VulkanなどのAPIで利用可能です。 cooperative vectorsは、ニューラルネットワークの基本要素であるMLP(多層パーセプトロン)の計算を高速化するために、Tensor Coreの能力を最大限に引き出します。CUDAのSIMTモデルの制約を克服し、warp内の非アクティブなスレッドが存在する場合でも行列演算を可能にし、アーキテクチャ間の互換性を提供します。 OptiXでは、OptixCoopVecという型でcooperative vectorsが実装されています。サンプルコードでは、MLPの層を評価するevalLayer関数内でoptixCoopVecMatMul関数を使用し、ベクトル-行列積とバイアス加算を行っています。 cooperative vectorsは、RTX Neural ShadersやRTX Neural Texture Compressionに利用されており、NVIDIA RTX Kitの一部として提供されています。 引用元: https://developer.nvidia.com/blog/neural-rendering-in-nvidia-optix-using-cooperative-vectors/ <ul> <li><a href="https://www.bcnretail.com/article/detail/id%3D509428">「カップヌードルが好きすぎるずんだもん」が『ニコニコ超会議2025』に出展　Gateboxとのコラボアイテムが登場 - BCN＋R</a></li> </ul> この記事は、2025年4月26日、27日に開催されるニコニコ超会議2025に「カップヌードルが好きすぎるずんだもん」が出展するというニュースです。Gateboxとのコラボアイテムが登場する予定です。 引用元: https://www.bcnretail.com/article/detail/id%3D509428 <ul> <li><a href="https://forms.gle/ffg4JTfqdiqK62qf9">お便り投稿フォーム</a></li> </ul> VOICEVOX:ずんだもん

Legal Disclaimer

Pod Engine is not affiliated with, endorsed by, or officially connected with any of the podcasts displayed on this platform. We operate independently as a podcast discovery and analytics service.

All podcast artwork, thumbnails, and content displayed on this page are the property of their respective owners and are protected by applicable copyright laws. This includes, but is not limited to, podcast cover art, episode artwork, show descriptions, episode titles, transcripts, audio snippets, and any other content originating from the podcast creators or their licensors.

We display this content under fair use principles and/or implied license for the purpose of podcast discovery, information, and commentary. We make no claim of ownership over any podcast content, artwork, or related materials shown on this platform. All trademarks, service marks, and trade names are the property of their respective owners.

While we strive to ensure all content usage is properly authorized, if you are a rights holder and believe your content is being used inappropriately or without proper authorization, please contact us immediately at [email protected] for prompt review and appropriate action, which may include content removal or proper attribution.

By accessing and using this platform, you acknowledge and agree to respect all applicable copyright laws and intellectual property rights of content owners. Any unauthorized reproduction, distribution, or commercial use of the content displayed on this platform is strictly prohibited.

Recent articles