Latent Dirichlet Allocation – Blei & Ang & Jordan , JMLR 2003

Introduction

Giả sử các bạn tất cả một tập những câu sau đây :


I like to lớn eat broccoli & bananas.I ate a banana and spinach smoothie for breakfast.Chinchillas và kittens are đáng yêu.My sister adopted a kitten yesterday.Look at this đáng yêu hamster munching on a piece of broccoli.

Bạn đang xem: Lda là gì

Đang xem: Ldomain authority là gì

Thế thì LDA là gì ? Đó là 1 phương pháp tự đụng tò mò ra các topics mà các câu trên cất. Ví du, cho những câu bên trên và từng trải cho 2 topics, LDA hoàn toàn có thể có mặt một hiệu quả nhỏng hình dáng này :

Sentences 1 and 2: 100% Topic ASentences 3 and 4: 100% Topic BSentence 5: 60% Topic A, 40% Topic BTopic A: 30% broccoli, 15% bananas, 10% breakfast, 10% munching, … ( trên đặc điểm này , chúng ta cũng có thể mô tả topic A là về food)Topic B: 20% chinchillas, 20% kittens, 20% đáng yêu, 15% hamster, … (tại điểm đó , bạn có thể mô tả topic B là về xinh tươi animals)

Làm vắt làm sao nhằm LDA rất có thể thực hiện được điều này ?

LDA Model

Chi tiết rộng , LDA miêu tả những vnạp năng lượng phiên bản như thể sự xáo trộn của những topics that spit out words với các tỷ lệ tốt nhất định . Nó đưa sử những văn bản được tạo nên Theo phong cách sau : khi bạn viết từng văn bản , bạn

Quyết định số lượng trường đoản cú N cơ mà document sẽ có ( theo một phân phối Poisson )Chọn một chủ thể hỗn hợp mang đến document này (theo một phân păn năn Dirichlet trên một tập vừa lòng thắt chặt và cố định K chủ đề). lấy ví dụ , mang sử chúng ta có nhị topics bên trên : food và xinh đẹp animal , bạn có thể lựa chọn rằng document này đã bao gồm 1/3 food và 2/3 dễ thương animals.Generate each word w_i vào document này bởi cách:trước hết là lựa chọn 1 topic (theo phân phối hận nhiều thức mà lại bạn sẽ láy ví dụ trên , ví dụ , chúng ta có thể lựa chọn food topic cùng với Tỷ Lệ 1/3 cùng dễ thương animals topic với Tỷ Lệ 2/3).Sử dụng topic để có mặt những từ (theo phân pân hận của topic’s multinomial). Ví dụ , nếu khách hàng chon food topic , chúng ta có thể sinh ra được các từ “broccoli” cùng với xác suất 30% , “bananas” cùng với xác suất 15% , cùng cứ đọng cụ …

Giả sử this generative sầu Mã Sản Phẩm này cho một tập hợp những documents , LDA kế tiếp cố gắng để quay lui (backtrack) tự các tài liệu nhằm tìm thấy một tập hòa hợp các chủ thể mà lại hết sức hoàn toàn có thể đang tạo nên collection .

Example

lấy ví dụ như . Tuân theo quá trình bên trên , khi ra đời một số document D cụt hể , bạn cũng có thể :

Chọn 5 là con số trường đoản cú trong D.Quyết định rằng D đang là 1/2 về food cùng một nửa về đáng yêu animals.Chọn trường đoản cú thứ nhất vào food topic , với các bạn sẽ gồm tự “broccoli”.Chọn trường đoản cú thiết bị hai đến từ đáng yêu animals topic, các bạn sẽ có “panda”.Chọn từ bỏ đồ vật 3 đến từ dễ thương animals topic , đang cho chính mình từ “adorable”.Chọn từ trang bị tư tới từ food topic, đã cho mình từ “cherries”.Chọn từ máy năm đến từ food topic, đang cho chính mình từ “eating”.

Nhỏng vậy document được sinh ra từ LDA đã là “broccoli panda adorable cherries eating” (ghi lưu giữ rằng LDA là a bag-of-words model).

Xem thêm: Câu Chuyện Soi Căn Ở Đâu - Vong Tà Và Căn Số: Cách Nhận Biết Nhanh Nhất

Learning

Giả sử bạn đã sở hữu tập các documents. You’ve sầu chosen some fixed number of K topics to discover, and want khổng lồ use LDA to lớn learn the topic representation of each document và the words associated lớn each topic. How vì you vì this? One way (known as collapsed Gibbs sampling) is the following:

Go through each document, and randomly assign each word in the document to lớn one of the K topics.Notice that this random assignment already gives you both topic representations of all the documents and word distributions of all the topics (albeit not very good ones).So khổng lồ improve sầu on them, for each document d…Go through each word w in d…And for each topic t, compute two things: 1) p(topic t | document d) = the proportion of words in document d that are currently assigned khổng lồ topic t, and 2) p(word w | topic t) = the proportion of assignments khổng lồ topic t over all documents that come from this word w. Reassign w a new topic, where we choose topic t with probability p(topic t | document d) * p(word w | topic t) (according khổng lồ our generative sầu model, this is essentially the probability that topic t generated word w, so it makes sense that we resample the current word’s topic with this probability). (Also, I’m glossing over a couple of things here, in particular the use of priors/pseudocounts in these probabilities.)In other words, in this step, we’re assuming that all topic assignments except for the current word in question are correct, và then updating the assignment of the current word using our model of how documents are generated.After repeating the previous step a large number of times, you’ll eventually reach a roughly steady state where your assignments are pretty good. So use these assignments to estimate the topic mixtures of each document (by counting the proportion of words assigned lớn each topic within that document) and the words associated khổng lồ each topic (by counting the proportion of words assigned to lớn each topic overall).Layman’s Explanation

In case the discussion above sầu was a little eye-glazing, here’s another way to look at LDA in a different tên miền.

Suppose you’ve just moved lớn a new city. You’re a hipster và an anime tín đồ, so you want to know where the other hipsters & anime geeks tend lớn hang out. Of course, as a hipster, you know you can’t just ask, so what vị you do?

Here’s the scenario: you scope out a bunch of different establishments (documents) across town, making note of the people (words) hanging out in each of them (e.g., Alice hangs out at the mall và at the park, Bob hangs out at the movie theater & the park, & so on). Crucially, you don’t know the typical interest groups (topics) of each establishment, nor vày you know the different interests of each person.

So you piông xã some number K of categories khổng lồ learn (i.e., you want to learn the K most important kinds of categories people fall into), và start by making a guess as lớn why you see people where you bởi. For example, you initially guess that Alice is at the mall because people with interests in X like khổng lồ hang out there; when you see her at the park, you guess it’s because her friends with interests in Y lượt thích khổng lồ hang out there; when you see Bob at the movie theater, you randomly guess it’s because the Z people in this thành phố really lượt thích to watch movies; & so on.

Of course, your random guesses are very likely khổng lồ be incorrect (they’re random guesses, after all!), so you want lớn improve sầu on them. One way of doing so is to:

Piông chồng a place & a person (e.g., Alice at the mall).Why is Alice likely khổng lồ be at the mall? Probably because other people at the mall with the same interests sent her a message telling her lớn come.In other words, the more people with interests in X there are at the mall & the stronger Alice is associated with interest X (at all the other places she goes to), the more likely it is that Alice is at the mall because of interest X.So make a new guess as khổng lồ why Alice is at the mall, choosing an interest with some probability according lớn how likely you think it is.

Go through each place và person over và over again. Your guesses keep getting better và better (after all, if you notice that lots of geeks hang out at the bookstore, & you suspect that Alice is pretty geeky herself, then it’s a good bet that Alice is at the bookstore because her geek friends told her to go there; và now that you have a better idea of why Alice is probably at the bookstore, you can use this knowledge in turn to lớn improve your guesses as khổng lồ why everyone else is where they are), và eventually you can stop updating. Then take a snapshot (or multiple snapshots) of your guesses, & use it khổng lồ get all the information you want:

For each category, you can count the people assigned khổng lồ that category to lớn figure out what people have this particular interest. By looking at the people themselves, you can interpret the category as well (e.g., if category X contains lots of tall people wearing jerseys và carrying around basketballs, you might interpret X as the “basketball players” group).For each place Phường & interest category C, you can compute the proportions of people at Phường because of C (under the current mix of assignments), and these give you a representation of P. For example, you might learn that the people who hang out at Barnes & Noble consist of 10% hipsters, một nửa anime fans, 10% jocks, & 30% college students.Real-World Example

Finally, I applied LDA to a mix of Sarah Palin’s emails a little while ago (see here for the blog post, hoặc phía trên là một vận dụng được cho phép chúng ta để mắt tới qua các emails bằng LDA-learned categories), bên dưới đó là 1 phân phối nắm gọn . Đây là 1 vài topics mà thuật toán học được :

Trig/Family/Inspiration: family, website, mail, god, son, from, congratulations, children, life, child, down, trig, baby, birth, love sầu, you, syndrome, very, special, bless, old, husbvà, years, thank, best, …Wildlife/BP Corrosion: game, fish, moose, wildlife, hunting, bears, polar, bear, subsistence, management, area, board, hunt, wolves, control, department, year, use, wolf, habitat, hunters, caribou, program, denby, fishing, …Energy/Fuel/Oil/Mining: energy, fuel, costs, oil, alaskans, prices, cost, nome, now, high, being, home page, public, power, mine, crisis, price, resource, need, community, fairbanks, rebate, use, mining, villages, …Gas: gas, oil, pipeline, agia, project, natural, north, producers, companies, tax, company, energy, development, slope, production, resources, line, gasline, transcanadomain authority, said, billion, plan, administration, million, industry, …Education/Waste: school, waste, education, students, schools, million, read, gmail, market, policy, student, year, high, news, states, program, first, report, business, management, bulletin, information, reports, 2008, quarter, …Presidential Campaign/Elections: mail, website, from, thank, you, box, mccain, sarah, very, good, great, john, hope, president, sincerely, wasilla, work, keep, make, add, family, republican, support, doing, p.o, …

Đây là một ví dụ một email rời vào Trig/Family/Inspiration category (particularly representative sầu words are highlighted in blue):

*
Lda Là Gì ? Khám Phá Bí Mật Ldomain authority Trong Tối Ưu Hóa Onpage? Phân Tích Phân Biệt Discriminant Analysis Da 4

Lược dịch trường đoản cú : https://www.quora.com/What-is-a-good-explanation-of-Latent-Dirichlet-Allocation/answer/Edwin-Chen-1?srid=nqv8