ScreenMind · บันทึกทุกอย่างบนจอ แล้วค้นย้อนหลังได้ด้วย vision model ที่รันบนเครื่องตัวเอง 100%
ScreenMind เป็น open-source tool ที่ถ่ายหน้าจอต่อเนื่อง แล้วให้ vision model อ่านว่าเรากำลังทำอะไรอยู่ เพื่อค้นย้อนหลังได้ทีหลัง ต่างตรงที่ทุกอย่างประมวลผลบนเครื่องตัวเอง ภาพหน้าจอไม่ถูกส่งออกไปไหนเลย

ScreenMind คือ open-source tool ที่ถ่ายภาพหน้าจอของเราต่อเนื่องทั้งวัน ให้ vision model อ่านว่าเรากำลังทำอะไร เปิดแอปไหน หรือเขียนงานชิ้นไหนค้างไว้ จากนั้นเก็บเป็นความจำที่ค้นย้อนหลังและถามตอบได้ คล้ายฟีเจอร์ Recall ของ Microsoft แต่จุดที่น่าสนใจคือ ScreenMind เลือกคนละทาง · ภาพหน้าจอทุกภาพประมวลผลบนเครื่องของเราเอง ไม่ส่งขึ้นคลาวด์แม้แต่ภาพเดียว
หัวใจที่ทำให้เรื่องนี้เป็นไปได้คือโมเดลตัวเล็กชื่อ Gemma 4 E2B ที่รันอยู่บนการ์ดจอในเครื่องเรา ไม่ใช่บนเซิร์ฟเวอร์ของใคร โมเดลตัวนี้อ่านภาพได้ ฟังเสียงได้ และคิดวิเคราะห์ได้ในโมเดลเดียว ทำให้ ScreenMind รวมความสามารถทั้งสามอย่างเป็นระบบความจำที่ทำงานเงียบๆ อยู่หลังจอ โดยไม่ต้องพึ่งบริการภายนอกแม้แต่ครั้งเดียว
ทำไม "รันบนเครื่อง" ถึงเปลี่ยนทุกอย่าง

เครื่องมือจำหน้าจอไม่ใช่ของใหม่ · Microsoft Recall ทำเรื่องเดียวกันคือถ่ายจอเก็บไว้ให้ค้นย้อนหลัง แต่ก็เจอเสียงค้านเรื่องความเป็นส่วนตัว เพราะมันเก็บข้อมูลเป็น plaintext และยังส่ง telemetry กลับออกไป ลองคิดดูว่าภาพหน้าจอของเราในหนึ่งวันมีอะไรบ้าง · อีเมล รหัสผ่านที่โผล่บนฟอร์ม แชตงาน เลขบัญชี รวมถึงทุกอย่างที่เราพิมพ์หรือเปิดอ่าน การยอมให้ภาพพวกนั้นไหลออกจากเครื่องไปประมวลผลที่อื่นจึงเป็นเรื่องใหญ่กว่าที่คิด
ScreenMind เลือกทางตรงกันข้าม · หลังจากดาวน์โหลดโมเดลครั้งแรกเสร็จ มันไม่ติดต่อเครือข่ายอีกเลย ข้อมูลทั้งหมดเก็บอยู่ในโฟลเดอร์ ~/.screenmind/ บนเครื่องเรา ไม่มี telemetry ไม่มีการส่งภาพออก สิ่งที่ทำให้ทางนี้เพิ่งเป็นไปได้คือ Gemma 4 E2B ที่เล็กและเร็วพอจะรันบนการ์ดจอธรรมดาได้ · เมื่อก่อนโมเดลที่อ่านภาพเข้าใจต้องตัวใหญ่จนต้องฝากไว้บนคลาวด์ พอมีโมเดลที่เล็กพอจะอยู่บนเครื่องได้ ความเป็นส่วนตัวกับความสามารถจึงไม่ต้องแลกกันอีกต่อไป
โมเดลเดียวที่ทำได้ครบทั้งสามอย่าง
เหตุผลที่ ScreenMind เลือก Gemma 4 E2B ไม่ใช่เพราะมันเก่งที่สุด แต่เพราะมันเป็นตัวเดียวที่ผ่านเงื่อนไขห้าข้อพร้อมกัน · รันค้างไว้ทั้งวันได้, อ่านภาพหน้าจอเข้าใจโดยตรง, ทำงานบนเครื่องได้ 100%, มีตัวถอดเสียงในตัว และเร็วพอจะวิเคราะห์ภาพให้ทันรอบการถ่ายจอ
ความครบนี้สำคัญกว่าที่เห็น เพราะมันทำให้ ScreenMind ใช้โมเดลตัวเดียวทำงานสามแบบโดยไม่ต้องลากเครื่องมือหลายตัวมาต่อกัน
- อ่านภาพ · โมเดลดูภาพหน้าจอแล้วบอกได้ว่าเป็นแอปอะไร กำลังทำกิจกรรมแบบไหน สรุปสั้นๆ ว่าหน้าจอนั้นมีอะไร
- ฟังเสียง · กดปุ่มลัดค้างไว้แล้วพูดบันทึกเสียง โมเดลถอดเป็นข้อความให้เองในตัว ไม่ต้องลงโปรแกรมถอดเสียงแยกเพิ่ม และยังถอดเสียงประชุมได้ด้วย
- คิดและตอบ · เอาความจำที่สะสมไว้มาคุยด้วยได้ เช่นถามว่า "เมื่อวานบ่ายทำอะไรค้างไว้"
พอทุกอย่างอยู่ในโมเดลเดียว ระบบจึงเบาและคุมง่าย · ไม่ต้องห่วงว่าจะมีเครื่องมือตัวไหนแอบส่งข้อมูลออกหลังบ้าน เพราะทั้งหมดวิ่งผ่านโมเดลเดียวที่อยู่บนเครื่องเรา
เบื้องหลังตั้งแต่ภาพขึ้นจอจนค้นเจอ

สิ่งที่ทำให้ ScreenMind ไม่กลายเป็นตัวกินทรัพยากรคือมันไม่ได้ตั้งเวลาถ่ายจอแบบตายตัวทุกกี่วินาที แต่ถ่ายเมื่อหน้าจอเปลี่ยนจริงๆ และยังตรวจจับภาพซ้ำแล้วคัดทิ้งก่อนเก็บ เพื่อไม่ให้หน้าจอนิ่งๆ ถูกบันทึกซ้ำเปล่าๆ จากนั้นแต่ละภาพจะไหลผ่านขั้นตอนต่อเนื่องกัน
- เมื่อถ่ายภาพแล้ว ระบบจะใช้ตัวอ่านตัวอักษร (OCR) ดึงข้อความดิบบนจอออกมาก่อน
- Gemma 4 E2B รับทั้งภาพและข้อความนั้นไปวิเคราะห์ แล้วคืนข้อมูลแบบมีโครงสร้าง · ชื่อแอป ประเภทกิจกรรม สรุปสั้น อารมณ์ของหน้าจอ ไปจนถึงตำแหน่งของส่วนต่างๆ บนจอ
- ระบบแปลงข้อความสรุปเป็นเวกเตอร์ความหมาย (embedding) เพื่อให้ค้นด้วยความหมายได้ ไม่ใช่แค่ตรงตัวอักษร
- ระบบเก็บทั้งหมดลงฐานข้อมูลบนเครื่อง พร้อมทำดัชนีไว้ค้นหา
ตอนค้นย้อนหลัง มันใช้สองวิธีพร้อมกัน · ค้นด้วยความหมาย (เช่นพิมพ์ว่า "ตอนที่แก้บั๊กเรื่องล็อกอิน" แล้วเจอแม้ไม่ได้พิมพ์คำนั้นเป๊ะ) และค้นด้วยคำที่ตรงตัวไปด้วย ทำให้หาเจอทั้งกรณีที่จำคำได้แม่นและกรณีที่จำได้แค่เลาๆ
ความเป็นส่วนตัวที่ลงรายละเอียด ไม่ใช่แค่คำโฆษณา
คำว่า local-first จะมีน้ำหนักก็ต่อเมื่อมีกลไกรองรับจริง · ScreenMind กรองข้อมูลอ่อนไหวอย่างเลขบัตรเครดิต รหัสผ่าน และคีย์ลับออกก่อนเก็บ เข้ารหัสภาพหน้าจอที่เก็บไว้บนดิสก์ และมีโหมด incognito ที่กดครั้งเดียวก็หยุดบันทึกชั่วคราวได้ · ยังตั้งให้ลบข้อมูลเก่าทิ้งอัตโนมัติได้ ค่าเริ่มต้นเก็บไว้ 7 วัน หรือจะตั้งให้เก็บถาวรก็ได้ และมันจะหยุดถ่ายจอเองเมื่อเจอเกม โปรแกรมตัดต่อ หรือซอฟต์แวร์ 3D เพื่อไม่ให้รบกวนงานหนักๆ
แต่ความเป็นส่วนตัวก็มีราคาที่ต้องจ่าย และควรรู้ไว้ตั้งแต่ต้น · ทุกอย่างรันบนเครื่องเรา แปลว่าภาระการประมวลผลตกอยู่ที่การ์ดจอของเราเอง ถ้าการ์ดจอไม่แรงพอ การวิเคราะห์แต่ละภาพจะกินเวลาและกินทรัพยากรขึ้นเรื่อยๆ อีกทั้งโปรเจกต์นี้ยังเป็นงานของผู้สร้างคนเดียว ตอนนี้รันได้ลื่นบน Windows ส่วน macOS กับ Linux ยังต้องการการทดสอบจากชุมชนเพิ่ม นี่คือสิ่งที่แลกมากับการไม่ต้องฝากข้อมูลไว้กับใคร
เริ่มลองได้วันนี้ในไม่กี่บรรทัด
ถ้าเครื่องมีการ์ดจอที่มี VRAM อย่างน้อย 4GB, ดิสก์ว่างราว 5GB และ Python เวอร์ชัน 3.10 ขึ้นไป การติดตั้งก็ตรงไปตรงมา · เริ่มจากสามคำสั่งนี้
git clone https://github.com/ayushh0110/ScreenMind
pip install -r requirements.txt
python main.pyจากนั้นเปิดเบราว์เซอร์ไปที่ http://127.0.0.1:7777 ครั้งแรกที่รัน ScreenMind จะดาวน์โหลดตัวโมเดลขนาดราว 5GB มาให้อัตโนมัติ จุดนี้ต้องเผื่อทั้งเวลาและพื้นที่ดิสก์ไว้ · พอโมเดลพร้อม หน้า dashboard จะมีทั้งไทม์ไลน์ของวัน ช่องแชตถามความจำ ช่องค้นหา และโหมด rewind ที่เล่นย้อนทั้งวันแบบ timelapse ได้
ถ้าอยากปรับให้เข้ากับเครื่องตัวเอง แก้ได้ที่ไฟล์ .env หรือแท็บ Settings ในหน้า dashboard · เช่น ถ้ารู้สึกว่าถ่ายจอถี่ไป ก็เปลี่ยนค่า CAPTURE_INTERVAL จากค่าเริ่มต้น 40 วินาทีให้ห่างขึ้น หรือถ้าไม่อยากให้เก็บข้อมูลนานก็ลดค่า RETENTION_DAYS ลง · เริ่มจากตั้งสองค่านี้ให้พอดีกับเครื่องและความสบายใจของตัวเองก่อน ที่เหลือค่อยปรับทีหลัง
เมื่อใช้คล่องแล้ว ScreenMind ยังต่อยอดได้อีก · ตั้งให้มันสรุปงานแต่ละวันส่งไปลงสมุดโน้ตที่ใช้อยู่ ตั้งเตือนเข้าแชตทีม หรือเขียนงานอัตโนมัติง่ายๆ แล้ววางเป็นไฟล์ข้อความในโฟลเดอร์ที่กำหนด เพื่อให้มันทำไดอารี่หรือรายงานโฟกัสประจำวันให้เอง แต่ของพวกนี้ค่อยเปิดทีหลังก็ได้ เริ่มจากให้มันถ่ายและค้นได้ก่อนก็พอ
เครื่องมือที่จำงานบนจอให้เราไม่ใช่เรื่องใหม่ สิ่งที่เพิ่งเปลี่ยนคือเราไม่ต้องยกความจำทั้งวันไปฝากไว้บนเครื่องของคนอื่นอีกแล้ว
ที่มา: ScreenMind บน GitHub



