74亿美元奖学金没人领：3个工程师写了个爬虫|gpa|key|python|奖学金|工程师|爬虫|爬行动物|算法

每年74亿美元的私人奖学金，超过一半没人申请。不是学生不够优秀，是信息散落在500多个网站里，找起来像大海捞针。

三个工程师做了件事：写了个爬虫，把Scholarships.com、Fastweb、Cappex这些主流平台的数据全抓下来，再用自然语言处理（NLP，即让机器理解人类语言的技术）做匹配。学生填一次资料，系统自动筛出符合条件的项目。

这套系统的核心逻辑很简单：奖学金信息是公开的，但匹配效率极低。一个学生平均只申请7个奖学金，而全美有170万个项目在跑。差距不是意愿问题，是工具问题。

第一步：破解反爬，拿下JavaScript动态页面

现代奖学金网站早就不是静态HTML了。数据藏在JavaScript渲染后的DOM里，普通爬虫抓下来是空白页。

团队用了ScraperAPI做中转。这个服务的作用是让爬虫"假装"是真人浏览器，执行完JavaScript再返回完整页面。代码结构很直接：

```python import requests from bs4 import BeautifulSoup SCRAPER_KEY = "YOUR_SCRAPERAPI_KEY" def fetch(url): resp = requests.get( "http://api.scraperapi.com", params={"api_key": SCRAPER_KEY, "url": url, "render": "true"}, timeout=60 ) return BeautifulSoup(resp.text, "html.parser") ```

关键参数是`render=true`，强制服务端执行JavaScript。超时设60秒，因为有些奖学金站点的响应慢得离谱。

这里有个产品细节：ScraperAPI按请求次数收费，但奖学金数据更新频率不高，用定时任务（Schedule库）每天跑一次，成本能压到每月几十美元。

第二步：结构化抓取，处理五花八门的页面格式

Scholarships.com是数据量最大的源之一，但页面结构混乱。有的奖学金用`.scholarship-item`类名，有的用`.award-listing`，金额字段可能是`.award-amount`也可能是`.amount`。

团队的解法很务实：多Selector兜底。代码里同时写多个备选选择器，哪个命中用哪个：

```python def scrape_scholarships_com(category, page=1): url = f"https://www.scholarships.com/.../{category}/page/{page}" soup = fetch(url) scholarships = [] for item in soup.select(".scholarship-item, .award-listing"): name = item.select_one(".scholarship-name, h3") amount = item.select_one(".award-amount, .amount") deadline = item.select_one(".deadline") desc = item.select_one(".description, .snippet") link = item.select_one("a") if name: scholarships.append({ "name": name.text.strip(), "amount": amount.text.strip() if amount else "Varies", "deadline": deadline.text.strip() if deadline else "Varies", "description": desc.text.strip() if desc else "", "url": link["href"] if link else "", "source": "scholarships.com" }) return scholarships ```

他们分了5个核心类别跑数据：学术优秀类（Merit-based）、经济需求类（Need-based）、少数族裔类、STEM类、艺术类。每个类别跑一遍，结果合并去重。

实际跑下来，单个类别平均能抓到80-120条有效记录，但脏数据比例高达30%——过期链接、金额写的是"TBD"、描述字段直接丢HTML标签进去。清洗比抓取更耗时间。

第三步：用NLP从描述里挖 eligibility 规则

奖学金的硬性条件很少写得很规整。大部分藏在长段描述里，比如"GPA 3.5以上、限加州居民、计算机或工程专业优先"。

团队写了一套正则+关键词匹配的提取逻辑，核心字段包括：最低GPA、年龄上限、国籍要求、专业限制、州属限制、人口统计标签。

```python def extract_eligibility(description): criteria = { "min_gpa": None, "max_age": None, "citizenship": [], "majors": [], "states": [], "demographics": [] } # GPA提取：匹配"3.5 GPA"或"GPA of 3.5"或"3.5/4.0" gpa_match = re.search(r'(\d\.\d)\s*(?:GPA|/4\.0)', description, re.I) if gpa_match: criteria["min_gpa"] = float(gpa_match.group(1)) # 专业关键词匹配 major_keywords = ["computer science", "engineering", "nursing", "business", "biology"] for major in major_keywords: if major.lower() in description.lower(): criteria["majors"].append(major) # 州属提取：匹配"California resident"或"residents of CA" state_pattern = r'(?:residents? of|in)\s+([A-Z]{2}|[A-Za-z\s]+)' states = re.findall(state_pattern, description, re.I) criteria["states"] = [s.strip() for s in states] return criteria ```

这套规则的准确率约72%，剩下的28%需要人工复核。但72%意味着机器先筛掉七成明显不匹配的，人工只处理边界情况——效率提升是数量级的。

匹配算法：不是推荐系统，是资格预审

团队试过用协同过滤做推荐，发现不对味。奖学金不是电影，没有"看了A的人也喜欢B"这种规律。核心问题是资格判定：学生符不符合硬性门槛。

最终用的是规则引擎+向量相似度的混合方案。硬性条件（GPA、州属、专业）做精确过滤，软性描述用TF-IDF（一种统计词频权重的算法）算学生背景文本和奖学金描述的相似度。

学生填写的资料结构如下：

```json { "gpa": 3.7, "major": "computer science", "state": "CA", "demographics": ["asian", "first-generation"], "interests": ["machine learning", "open source", "robotics"], "essay_topics": ["overcoming financial hardship", "community impact"] } ```

系统先跑硬性过滤：GPA≥门槛、州属匹配、专业不冲突。剩下的进入相似度排序，把描述文本里出现学生关键词的项目往前排。

一个反直觉的发现：金额大的奖学金竞争反而更小。因为大多数人看到"全额奖学金"就默认自己没戏，直接跳过。系统会把这些高价值但低申请量的项目标红提示。