06.12.2025 –, Main Stream Sprache: Japanese
In this talk, I will introduce a prototype that allows a small car powered by a Raspberry Pi Pico to be controlled using multimodal input such as voice and images.
Voice commands and hand-drawn routes are entered via Gradio and converted into instructions like “move forward” or “turn right” using LangChain.
The Pico acts as an HTTP server, receives these commands over Wi-Fi, and controls the car accordingly.
I’ll share the system structure and technologies used, along with the fun and creative challenges I encountered during development.
It’s a fun project that combines generative AI and IoT!
本発表では、音声や画像といったマルチモーダルな入力から、Raspberry Pi Picoで動く小型カーを制御する試みを紹介します。
構成としては、Gradioで音声や手描きルートを入力し、それをLangChainを使って「前進」「右折」などを意味するコマンドに変換。Picoは簡易的なHTTPサーバとして動作し、Wi-Fi経由で指示を受けてカーを制御します。
本発表では、この構成と技術要素を共有しながら、実際に試してみて感じた楽しさや工夫した点をお伝えできればと思っています。
ゆるく楽しく「生成AI × IoT」の可能性を探る取り組みです!
Wouldn't it be fun to control a small car using voice commands or hand-drawn routes?
This idea led me to try a playful experiment combining generative AI and IoT.
In this prototype, I used the following tools and technologies:
- A commercially available Pico car kit with a Raspberry Pi Pico WH
- Gradio for voice input and route drawing
- LangChain to convert user instructions like “Go straight” or “Turn right” into commands and send them to the car
- An HTTP server using Microdot, running on the Pico to receive commands via Wi-Fi
In this talk, I’ll walk through the technical flow while also highlighting some fun aspects unique to generative AI—such as how the car responds to vague or playful commands like “Dance!” or “You’re so cute!”
Even without deep technical knowledge, this is a fun prototyping example you can try using Python and familiar tools.
Note: This talk will be presented in Japanese, with slides in both English and Japanese.
音声指示や手描きルートを使って小型カーを操作できたら面白そう!
そんな発想から始まった、生成AIとIoTを組み合わせたゆるい実験を紹介します。
今回のプロトタイプでは、以下のようなツールや技術を使っています。
- 車体は市販のPicoカーキット + Raspberry Pi Pico WH を使用
- Gradio で音声入力やルート画像を入力
- LangChain でユーザの指示を「前進」「右折」などを意味するコマンドに変換し、Picoカーに送信
- Pico上で Microdot を使ってHTTPサーバを動かし、Wi-Fi経由でコマンドを受信
本発表では、こうした技術的な流れを紹介しつつ、「踊ってみて!」「かわいいね」といった曖昧な言葉にも反応する、生成AIならではの面白さもあわせてお話しします。
難しい知識がなくても試せる、Pythonと身近なツールを使ったプロトタイピングの楽しさを共有します。
注意:この発表は日本語で行い、スライドは英語と日本語を併記します。
Tomoko Furuki works at BeProud Inc., focusing on data science support and system development with Python.
Recently, in her free time, she enjoys working on hobby projects with LLMs — such as a voice-controlled toy car and a program that rewrites classic literature for children using LangChain and LangGraph.
X: @komo_fr
GitHub: https://github.com/komo-fr
